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心理 测量 是 我 国 高 等 院 校 心理 学 .教育 学 等 专业 重要 的 必修 课程 。 应 清华 大 学 出 版 社 
的 邀请 ,我 们 编写 出 版 了 《心理 测量 》 这 本 书 , 将 其 作为 高 等 院 校 心 理学 .教育 学 等 专业 的 
教材 。 

在 本 书 撰写 过 程 中 ,一 方面 借鉴 了 国内 外 已 有 的 成 果 ; 另 一 方面 结合 了 作者 多 年 从 事 心 
理 测量 教学 与 研究 的 经 验 。 为 了 写 好 本 书 ,我们 力图 有 一 些 特色 和 新 意 , 更 加 突出 实践 性 ， 
使 其 更 能 满足 在 社会 科学 领域 的 研究 与 应 用 中 对 测量 知识 的 需求 。 

本 书 在 内 容 体系 的 设计 上 不 仅 强调 学 生 应 该 具备 基本 的 测量 思想 .掌握 基本 的 测量 方 
法 ,还 强调 应 该 培养 学 生 对 心理 测量 方法 的 分 析 与 解决 问题 的 能 力 。 本 书 在 编写 过 程 中 , 根 
据 社会 科学 类 专业 的 特点 ,努力 贯彻 “学 以 致 用 ”的 原则 , 尽 可 能 做 到 结构 合理 、 概 念 明确 .条 
理 分 明 \ 深 入 浅 出。 在 内 容 上 ,本 书包 括 三 大 块 : 

第 一 大 块 : 经 典 测验 理论 。 经 典 测验 理论 体系 构建 清晰 、 易 理解 ,始终 围绕 “心理 测验 ” 
这 个 中 心 讲解 ,再 演绎 这 个 中 心 概念 的 三 大 要 素 , 即 行为 样本 、 客 观 化 和 标准 化 。 行 为 样本 
包含 在 常 模 这 一 章 ( 第 二 章 ) ;客观 化 包含 在 “四 度 ” 中 , 即 信 和 度 (第 三 章 ) , 效 度 (第 四 章 ) 、 难 度 
(第 五 章 ) 和 区 分 度 ( 第 五 章 ) ;标准 化 包含 在 “四 化 ”中 (第 六 章 : 测 验 编制 标准 化 ,测验 实施 标 
准 化 、 测 验 评分 标准 化 和 测验 解释 标准 化 ) 。 

第 二 大 块 : 具 体 心理 测验 。 本 书 仅 选择 常见 的 三 大 心理 测验 , 即 能 ( 智 ) 力 测验 (第 七 
章 )、 人 格 测验 (第 八 章 ) 和 心理 评定 量 表 (第 九 章 ) ,作为 具体 心理 测验 的 代表 ,而 且 仅 选择 一 
些 比 较 有 代表 性 的 智力 测验 .人 格 测验 和 心理 评定 量 表 作为 示例 。 

第 三 大 块 :现代 测验 理论 。 现 代 测 验 理论 包括 项 目 反 应 理论 (第 十 章 ) 和 概 化 理论 (第 十 
一 章 ) ,这 也 是 本 科 生 或 研究 生 等 必须 掌握 的 一 部 分 内 容 。 本 书 较为 详尽 地 盖 述 了 这 部 分 内 
容 , 尽 量 做 到 与 国际 前 沿 接轨 。 

本 书 从 立项 到 完成 ,尽管 整个 写作 过 程 由 作者 一 人 执笔 ,但 却 是 集体 力量 和 智慧 的 结 
晶 。 首 先 ,要 感谢 国内 外 心理 测量 同行 专家 及 学 者 , 书 中 引用 的 大 量 文献 资料 是 他 们 多 年 潜 
心 研究 的 成 果 ; 其 次 ,要 感谢 我 的 研究 生 们 ,如 王 幸 君 、 蒋 欢 . 梁 正 妍 .谢晋 艳 、 侯 桂 云 . 张 晓 
婷 、. 甄 锋 泉 等 ,在 编写 过 程 中 她 (他 ) 们 为 本 书 提供 了 大 量 宝贵 的 资料 ,这 些 资 料 让 本 书 增色 
不 少 ; 最 后 ,还 要 感谢 清华 大 学 出 版 社 为 本 书 所 付出 的 辛勤 劳动 。 

尽管 倾 尽 全 力 ,有 时 为 了 某 种 理论 、 某 种 方法 或 某 个 公式 的 科学 性 和 准确 性 不 厌 其 烦 地 
查阅 各 种 文献 ;尽管 有 许多 好 的 想法 和 构思 ,在 内 容 编排 和 组 织 上 精益 求 精 , 但 由 于 作者 水 
FAR ,因此 书 中 难免 会 有 朴 漏 与 不 足 。 为 此 ,有 恳请 国内 外 的 专家 同行 及 广大 读者 朋友 批评 
指正 。 

作 者 
2019 年 2 月 于 华南 师范 大 学 
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心理 测量 是 我 国 高 等 院 校 心理 学 、 教 育 学 等 专业 重要 的 必修 课程 。 该 课程 是 从 事 基 础 
理论 研究 的 方法 课 , 也 是 从 事 应 用 研究 的 工具 课 。 心 理 测量 广泛 应 用 于 教育 经济, 管理 , 卫 
生 医疗 \ 司 法、 军队 等 领域 ,并 产生 了 重要 的 作用 。 本 章 主要 介绍 心理 测量 概述 、 心 理 测验 的 
分 类 与 功能 、 心 理 测验 的 历史 沿革 与 发 展 ,以 及 如 何 正确 对 待 和 使 用 心理 测验 。 


第 一 节 ”心理 测量 概述 


一 、 什 么 是 测量 ? 


测量 ,简单 地 说 ,就 是 要 把 “ 量 ” 给 测 出 来 。 所 谓 “ 量 "其实 就 是 数字 。 如 此 看 来 ,测量 其 
实 就 是 要 把 数字 测 出 来 。 何 谓 数字 ? 就 是 人 们 通常 理解 的 阿拉 伯 数 字 或 它们 的 排列 以 及 组 
合 等 构成 的 符号 。 例 如 ,人 的 身高 多 高 ,桌子 多 长 等 ,这 些 测量 最 后 都 需要 用 数字 来 表达 。 

史 蒂 文 斯 (S. S. Stevens) (图 1 - 1) F 1951 年 给 测量 下 了 定义 : 
“从 广义 而 言 ,测量 就 是 根据 一 定 的 法 则 用 数字 对 事物 加 以 确定 。” 

史 蒂 文 斯 的 关于 测量 的 这 一 定义 概括 了 物理 测量 .社会 测量 、 
生理 测量 ,心理 测量 等 的 共性 。 从 史 蒂 文 斯 测量 的 定义 中 ,不 难 发 
现 , 测 量 包 含 三 个 要 素 :测量 对 象 (事物 ) .测量 法 则 (法 则 ) 和 测量 
结果 (数字 )。 这 三 个 要 素 的 关系 可 形 如 :y=/(Cz)。 其 中 ,z 表示 
测量 对 象 ,/ 表示 测量 法 则 ,y 表示 测量 结果 , 即 : 

D 事物 (zx) 一 一 测量 对 象 

© 法 则 (/) 一 一 测量 法 则 图 1-1 史 蒂 文 斯 

@ 数字 (y) 一 一 测量 结果 

由 此 看 来 ,测量 需要 包含 以 下 三 个 要 素 。 

第 一 个 要 素 : 测量 对 象 。 测 量 要 得 到 测量 出 来 的 数字 .应 该 先 要 有 测量 的 对 象 , 即 要 告 
知 是 测 什 么 。“ 巧 妇 难 为 无 米 之 炊 ”, 即 便 测量 工具 如 何 好 ,测量 者 如 何 负 责 . 没 有 测量 对 象 
也 是 无 稽 之 谈 。 

第 二 个 要 素 : 测量 法 则 。 测 量 人 的 身高 与 测量 人 的 体重 ,所 使 用 的 法 则 是 不 同 的 ,而 法 
则 往往 体现 在 工具 中 。 测 量 人 的 身高 用 米 尺 ,测量 人 的 体重 用 磅 秤 ,这 是 工具 本 身 蕴含 的 法 
则 有 所 不 同 。 人 们 知道 身高 和 体重 具有 不 同 的 测量 法 则 ,不 能 相互 混用 。 用 磅 秤 来 测量 人 
的 身高 ,或 用 米 尺 来 测量 人 的 体重 ,都 是 不 妥当 的 。 

第 三 个 要 素 : 测量 结果 。 测 量 结果 就 是 通常 所 指 的 “ 量 ”, 即 数字 ,这 是 人 们 真正 想 要 
的 。 这 样 看 来 ,测量 (libng) 其实 就 是 测量 (ibng) ,就 是 对 测量 对 象 通过 一 定 的 法 则 把 量 
(liang) 给 测 出 来 ,人 们 最 终 要 的 就 是 这 个 量 。 例 如 ,桌子 长 2 尺 , 温 度 4 摄氏 度 等 。 
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当然 , 因 测量 对 象 的 不 同 ,测量 的 种 类 也 不 同 。 如 果 测 量 对 象 是 物理 现象 ,那么 测量 就 
是 物理 测量 ,如 桌子 的 长 度 。 如 果 测 量 对 象 是 社会 现象 ,那么 测量 就 是 社会 测量 ,如 民意 调 
查 。 如 果 测 量 对 象 是 生理 现象 ,那么 测量 就 是 生理 测量 ,如 血压 多 高 。 如 果 测 量 对 象 是 心理 
现象 ,那么 测量 就 是 心理 测量 ,如 心理 健康 程度 。 

依据 y= f(r) ,我 们 知道 ,z 和 /的 目的 是 为 了 得 到 yy, 这 表明 y 是 测量 结果 , 即 量 或 数 
字 , 是 非常 重要 的 。 但 是 ,得 到 了 > 是 远 远 不 够 的 (至 多 只 能 说 完成 了 1/2) ,这 是 因为 只 有 y 
也 不 一 定 知道 y 的 含义 和 价值 。 这 就 如 同一 个 学 生 通 过 测试 考 了 90 分 ,这 符合 y= f(a), 
其 中 zx 是 学 生 能 力 ,/ 是 测试 题目 .y 是 考分 90 分 。 若 不 知道 参与 测试 的 学 生 的 总 体 成 绩 分 
布 , 则 即便 知道 这 个 学 生 考 了 90 分 ,是 高 还 是 低 呢 ? 人 们 也 仍然 无 从 知道 。 因 此 ,只 有 
Y= SCD) ,是 远 远 不 够 的 ,还 必须 知道 y 的 具体 含义 和 价值 。 这 就 是 说 ,测量 把 量 给 测 出 来 
是 主要 目的 ,但 量 要 表达 的 含义 和 价值 也 是 非常 重要 的 。 把 量 给 测 出 来 ,这 就 如 同 把 孩子 生 
出 来 固然 是 相当 重要 的 ,这 一 步 相 当 于 生成 量 , 即 y= 二 /(x)。 但 是 ,把 生出 的 孩子 培养 成 人 
也 是 非常 重要 的 ,只 有 通过 这 一 步 才 知道 孩子 出 生 后 的 含义 和 价值 ,这 相当 于 y 的 含义 和 价 
值 (不 是 生出 y)。 一 句 话 ,只 生出 孩子 是 不 够 的 ,至 多 只 完成 了 1/2, 还 必须 继续 把 他 (y) 培 
养 成 人 ,才能 完成 剩 下 的 1/2。 

那么 ,如 何 来 表达 y 的 含义 和 价值 呢 ? 这 需要 将 y 表达 在 一 个 系统 的 量 纲 (scale) 中 ,从 总 体 
俯视 y 在 整体 中 的 地 位 ,才能 有 效 获知 y 的 含义 和 价值 。 在 此 处 ,scale 意 指 “ 量 纲 " 或 “ 量 尺 ”。 

依据 上 述 例 子 ,如 果 一 个 学 生 测试 考 了 90 分 ,而 大 多 数 同学 只 考 了 60 分 左右 ,那么 说 
明 他 比较 厉害 ,分 数 相 对 高 些 , 可 形容 为 “ 扒 立 鸡 群 "! 如 果 大 多 数 同学 都 考 了 95 分 以 上 , 那 
么 说 明 他 就 比较 差 了 ! 同样 的 一 个 分 数 ,在 不 同 群体 比较 中 .含义 和 价值 是 不 同 的 。 因 此 ， 
我 们 需要 将 分 数 表达 在 整体 系统 的 量 纲 中 。 

试想 ,如 果 有 人 在 你 面前 放置 1 元 钱 , 且 无 法 知道 1 元 钱 的 货币 系统 的 量 纲 , 即 不 预先 
告知 是 哪 一 种 货币 ,那么 你 也 无 法 知道 1 元 钱 的 价值 或 含金量。 当然, 若 在 你 面前 放置 1 英 
镑 ,1 美元 、1 元 人 民 币 、1 卢布 1 泰 匆 等 , 则 你 会 选择 哪个 呢 ? 答案 很 显然 是 1 英镑 。 这 表 
明 , 只 知道 数字 ( 量 ) 是 不 够 的 ,还 必须 告知 是 哪 一 种 货币 系统 的 量 纲 ,因为 不 同 的 货币 系统 
的 量 纲 , 相 同 的 数字 (如 工 元 ) ,其 价值 或 含金量 可 能 是 不 同 的 。 同 理 , 心 理 的 量 也 存在 相同 
之 处 , 即 仅 测量 出 量 是 不 够 的 ,还 必须 指定 量 是 在 哪 一 个 系统 的 量 纲 上 。 

那么 ,如 何 来 定义 测量 的 量 系统 的 量 纲 呢 ? 为 方便 表述 ,这 里 ,我 们 把 * 测 量 的 量 系统 的 
量 纲 " 缩 称 为 “测量 量 纲 ”。 依 据 一 定 标准 ,1946 年 史 蒂 文 斯 将 测量 量 纲 从 低 到 高 分 成 4 种 水 
平 ,如 表 1-1 所 示 。 


表 1-1 4 种 测量 量 纲 在 要 素 上 的 属性 


要 素 是 否 有 大 小 之 分 。 是 否 有 相等 单位 ”是否 有 绝对 零点 ”是 否 能 进行 代数 运算 
量 纲 (大 小 ) (单位 ) (零点 ) (运算 ) 
称 名 量 纲 x x x x 
顺序 量 纲 Vv x x x 
FERA v v x V/x 
等 比 量 纲 v Vv v v 


注 :“X” 表 示 不 具备 某 一 类 要 素 属性 ;“、/ ”表示 具备 某 一 类 要 素 属性 。 


o 


nn 第 一 章 绪 论 m 


在 表 1-1 中 ,测量 量 纲 的 要 素 包 括 4 种 , 即 大 小 .单位 .零点 和 运算 .“ 大 小 ?表示 某 一 
类 量 纲 是 否 有 大 小 之 分 、 强 弱 之 分 .等 级 之 分 。“ 单 位 ?表示 某 一 类 量 纲 是 否 有 相等 单位 , 即 
不 同 量 级 之 间 是 否 能 等 量 齐 观 。“ 零 点 ”表示 某 一 类 量 纲 是 否 有 绝对 零点 ,而 不 是 人 为 定义 
的 零点 ,这 里 的 零点 又 称 为 参照 点 起点、 原点、 出 发 点 。“ 运 算 " 表 示 某 一 类 量 纲 是 否 能 够 进 
行 代数 上 的 数学 运算 ,如 是 否 能 够 进行 加 、 减 乘除 等 运算 。 

根据 测量 量 纲 的 要 素 , 表 1 — 1 明确 规定 y 的 测量 量 纲 可 分 为 4 种 , 即 称 名 量 纲 Cnominal 
scale) ,顺序 量 纲 (ordinal scale) , “4 Hi Ht 44 (interval scale) 和 等 比 量 纲 (ratio scale), y 有 4 
种 测量 量 纲 ,这 就 表明 即使 有 相同 的 y 值 ,在 不 同系 统 的 量 纲 上 其 含义 也 是 不 同 的 。 例 如 ， 
对 于 数字 ( 量 )1 和 2, 这 两 个 人 们 最 常见 的 数字 ( 量 ) ,在 不 同系 统 的 量 纲 上 其 含义 也 是 不 同 
的 。 为 了 说 明 这 个 问题 , 现 举例 如 下 。 

如 果 1 和 2 在 称 名 量 纲 上 ,表示 数字 命名 ,1 代表 男 ,2 代表 女 。 我 们 不 能 说 2 大 于 1, 因 
为 性 别 没 有 大 小 之 分 ,仅仅 是 用 1 和 2 来 表示 它们 的 分 类 。 这 一 类 数字 既 没有 相等 单位 ,也 
没有 绝对 零点 ,更 不 能 作 代 数 运 算 。 例 如 ,用 0 代表 藏族 ,1 代表 傣族 ,2 代表 汉族 ,我 们 不 能 
说 2 一 1 二 1 一 0, 因 为 没有 相等 单位 。 也 不 能 说 这 里 的 0 就 是 没有 ,这 仅仅 代表 藏族 ,所 以 这 
里 的 0 不 是 通常 人 们 所 说 的 绝对 零点 或 起 点 。 也 不 能 作 运算 ,如 用 1 代表 藏族 .2 代表 傣族 、 
3 代表 汉族 ,不 能 说 1 十 2 一 3, 即 藏族 十 傣族 一 汉族 ,这 里 的 数字 仅 起 分 类 或 称 名 的 作用 。 电 
话 号 码 .手机 号 码 ,学 生 证 号 码 .车 牌号 码 等 都 是 称 名 量 纲 。 称 名 量 纲 在 大 小 、. 单 位、 零点 及 
运算 四 个 量 纲要 素 上 都 是 "Xx”。 称 名 的 意思 是 指 这 类 数据 (或 量 ) 仅 仅 是 为 了 分 类 或 命名 。 

如 果 1 和 2 在 顺序 量 纲 上 ,表示 考试 成 绩 排 名 ,第 1 名 和 第 2 名 。 我 们 可 以 说 第 1 名 比 
第 2 名 好 ,有 顺序 (大 小 ) 之 分 。 但 这 一 类 量 纲 没 有 相等 单位 ,因为 我 们 不 能 说 第 2 名 一 第 1 
名 一 第 3 名 一 第 2 名 ,第 2 名 与 第 1 名 的 差距 不 一 定 等 于 第 3 名 与 第 2 名 的 差距 。 如 果 第 1 
名 80 分 ,第 2 名 70 分 ,第 3 名 50 分 ,那么 就 显而易见 了 ,3 一 2 天 2 一 1。 顺 序 量 纲 也 没有 绝 
对 零点 ,因为 第 0 名 并 不 是 第 1 名 的 起 点 ,更 何况 通常 没有 第 0 名 的 说 法 。 顺 序 量 纲 也 不 能 
作 代 数 运算 ,这 是 因为 我 们 不 能 说 第 1 名 十 第 2 名 = 第 3 名 。 顺 序 量 纲 在 大 小 量 纲要 素 上 
是 “/ ”, 但 在 单位 .零点 及 运算 三 个 量 纲要 素 上 都 是 “X”。 顺 序 的 意思 是 指 这 类 数据 (或 量 ) 
能 够 区 分 出 名 次 (顺序 ) 。 

如 果 1 和 2 在 等 距 量 纲 上 ,表示 温度 1 摄氏 度 和 2 摄氏 度 。 我 们 可 以 说 温度 是 有 大 小 
之 分 的 ,2 摄氏 度 要 比 1 摄氏 度 热 一 些 ,3 摄氏 度 与 2 摄氏 度 之 间 的 差 值 等 于 2 摄氏 度 与 1 
摄氏 度 之 间 的 差 值 (3 一 2 二 2 一 1)。 温 度 的 单位 是 常温 常 压 下 人 们 规定 水 结 成 冰 定 义 为 0 摄 
氏 度 , 水 变 成 水 蒸气 定义 为 100 摄氏 度 ,从 0 摄氏度 到 100 摄氏 度 切 99 下 , 细 分 成 100 Be, 
取 其 中 的 1 段 即 为 温度 的 单位 ,每 1 段 都 是 相等 的 。 但 是 ,温度 的 零点 (或 称 参照 点 .起 点 、 
原点 、 出 发 点 ) 是 相对 的 ,因为 温度 的 零点 是 人 们 将 常温 常 压 下 水 结 成 冰 时 的 温度 定义 为 0 
摄氏 度 , 当 然 人 们 也 可 以 不 这 么 规定 零点 的 ,所 以 这 是 相对 的 。 就 相当 于 测量 珠穆朗玛 峰 的 
高 度 ,为 8 844. 43 米 ,是 人 们 通常 以 海平 面 为 起 点 的 。 当 然 了 ,从 珠穆朗玛 峰山 脚 到 山顶 是 
没有 那么 高 的 ,所 以 起 点 也 可 以 选 在 山脚 或 测量 者 现在 自己 的 脚下 。 很 显然 ,类 似 于 温度 或 
山 的 高 度 , 零 点 是 相对 的 ,不 是 绝对 的 。 正 因为 温度 有 相等 单位 所 以 它 能 作 加 减 运算 , 正 因 
为 温度 没有 绝对 零点 所 以 它 不 能 作 乘 除 运算 ,于 是 我 们 在 表 1 -1 中 表达 成 “VV /X”。 等 距 
量 纲 在 大 小 .单位 这 两 个 要 素 上 都 是 “/”, 但 在 零点 要 素 上 是 “X”, 在 运算 要 素 上 是 
“VV /X”。 等 距 的 意思 是 指 这 类 数据 (或 量 ) 单 位 是 等 距 的 。 
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如 果 1 和 2 在 等 比 量 纲 上 ,表示 人 的 身高 1 米 和 2 米 。 我 们 可 以 说 2 米 的 身高 要 比 1 米 
高 ,有 大 小 之 分 。 对 于 人 的 身高 ,我 们 可 以 说 2 一 1 一 3 一 2, 有 相等 单位 。 等 比 量 纲 也 有 绝对 
零点 ,0 表示 没有 高 度 。 类 似 的 还 有 重量 ,如 1 斤 .2 斤 , 如 果 是 没有 重量 就 是 0。 事实 上 , 试 
想 如 果 你 去 买 肉 , 盘 子 上 没有 放 肉 ,那么 数字 当然 应 该 显示 为 0 了 。 正 是 因为 身高 .重量 等 
这 类 量 有 相等 单位 和 绝对 零点 ,所 以 它 既 能 作 加 减 运算 ,又 能 作 乘 除 运算 。 我 们 既 可 以 说 1 
斤 肉 加 3 斤 肉 等 于 4 斤 肉 ,也 可 以 说 4 斤 肉 比 3 斤 肉 多 1 斤 肉 ,还 可 以 说 4 斤 肉 是 2 斤 肉 的 
2 倍 等 。 等 比 量 纲 在 大 小 .单位 .零点 和 运算 四 种 量 纲要 素 上 都 是 /”。 等 比 的 意思 是 指 这 
类 数据 (或 量 ) 有 绝对 零点 ,是 可 以 相 除 或 等 比 的 。 

在 表 1-1 中 ,“X” 表 示 某 种 测量 量 纲 不 具备 某 一 类 要 素 属性 ,“V "表示 某 种 测量 量 纲 
具备 某 一 类 要 素 属性 。 四 种 测量 量 纲 在 要 素 上 的 属性 存在 不 同 。 根 据 表 1 - 1, 由 上 分 析 可 
知 , 从 出 现 “V ”的 频数 看 , 称 名 量 纲 为 0, 顺 序 量 纲 为 1 ,等 距 量 纲 为 3, 等 比 量 纲 为 4, 这 表明 
量 纲 水 平 依次 升 高 , 量 纲 水 平 最 高 的 是 等 比 量 纲 , 其 次 是 等 距 量 纲 , 再 次 是 顺序 量 纲 , 最 后 是 
称 名 量 纲 。 

综 上 所 述 ,理解 测量 的 概念 需要 注意 以 下 几 点 。 

第 一 ,测量 的 量 是 根据 y==/(z) 得 到 的 。 测 量 需要 具备 三 个 要 素 , 即 测量 对 象 zx, 测量 
法 则 /和 测量 结果 y,y 相对 更 为 重要 ,因为 x 和 /都 是 为 了 “生出 ”y。 

第 二 ,测量 的 量 需 要 指定 测量 量 纲 。“ 生 出 ”或 测 出 > 是 不 够 的 ,还 必须 赋予 y 含义 和 价 
值 ,对 于 相同 的 y, 不 同 的 测量 量 纲 其 含义 和 价值 是 不 一 样 的。 测量 量 纲 共有 4 种 ,包括 称 名 
量 纲 ,顺序 量 纲 \ 等 距 量 纲 和 等 比 量 纲 。 

上 述 第 一 点 是 把 y* 生 (或 测 ) 出 来 ”, 第 二 点 是 把 y* 培 养 成 人 ”, 这 两 点 功劳 各 半 。 只 有 
基于 以 上 两 点 ,测量 的 量 才 是 有 价值 的 , 仅 测 出 量 来 也 至 多 只 完成 了 1/2, 仍 需 知道 测 出 来 的 
量 的 含义 和 价值 如 何 ,这 就 需要 通过 判断 它 属 于 哪 种 测量 量 纲 来 表达 。 
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通过 以 上 分 析 可 知 ,测量 因 测 量 对 象 的 不 同 可 分 为 物理 测量 .生理 测量 .社会 测量 和 心理 
测量 等 。 心 理 测量 (Psychological Measurement) 仅仅 是 测量 的 一 种 。 心 理 测量 隶属 于 测量 ,其 
内 涵 是 相同 的 ,但 外 延 变 小 了 。 与 测量 一 样 ,心理 测量 仍然 必须 具备 三 个 要 素 , 即 测量 对 象 x、 
测量 法 则 /和 测量 结果 y, 但 它 的 三 个 要 素 的 外 延 都 要 变 小 “狭义 化 ?或 “ 特 指 化 "。 三 个 要 素 
的 关系 也 可 形 如 为 y= f): 

中 事物 (z) 一 一 测量 对 象 一 一 心理 现象 

© 法 则 (7) 一 一 测量 法 则 一 一 心理 法 则 

© 数字 (y) 一 一 测量 结果 心理 的 量 

从 心理 测量 与 测量 的 形式 看 ,两 者 其 实 没 有 多 大 差别 , 仅 
仅 是 心理 测量 对 象 的 范围 变 小 了 .狭义 化 了 , 特 指 * 心 理 ”, 所 
以 它 叫 心理 测量 ,加 了 “心理 ”这 个 特定 称谓 。 

心理 能 测量 吗 ? 人 们 听 起 来 有 点 儿 觉 得 不 可 思议 ,因为 
心理 测量 不 像 物 理 测 量 那么 直观 。 物 理 测量 对 象 大 多 看 得 见 
摸 得 着 ,而 心理 测量 对 象 既 看 不 见 , 也 摸 不 着 。 

然而 ,我 国 思想 家 孟子 (图 1 -2) 说 过 :“ 权 ,然后 知 轻重 ; 图 1-2 孟子 
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孟子 这 人 句 话 的 意思 是 说 :“ 称 一 称 我 们 就 知道 物体 的 重量 , 量 一 量 我 们 就 知道 物体 的 长 
短 , 物 理 测量 是 这 样 ,那么 心理 测量 就 更 加 是 这 样 了 。” 人 的 心理 之 所 以 可 以 测量 是 源 于 人 的 
心理 特性 是 存在 差异 的 。 例 如 ,孔子 认为 ,人 可 分 为 上 人 、 中 人 和 下 人 。 有 了 心理 特性 差异 
就 为 心理 测量 打下 了 量 分 的 基础 .有 了 心理 特性 差异 人 们 就 可 以 用 数字 来 表达 它们 之 间 的 
相对 或 绝对 差异 。1918 Æ, RAEE. L. Thorndike) 提 出 : 凡 客 观 存在 的 事物 都 有 其 数量 。 
1939 年 , 麦 柯 尔 (W. A. McCall) 进一步 提出 : 凡 有 其 数量 的 事物 都 可 以 测量 。 上 述 两 句 话 
整合 起 来 ,意思 就 是 : 凡 客 观 存在 的 事物 都 可 以 测量 。 心 理 现象 是 客观 存在 的 事物 。 所 以 ， 
心理 是 可 以 测量 的 。 

对 于 心理 测量 ,仍然 可 以 表达 成 : y= f(x), 

对 于 z( 心 理 现象 ) ,因为 存在 不 同 种 类 的 心理 现象 ,所 以 测量 工具 也 存在 不 同 种 类 。 若 
测量 智力 、 能 力 倾向 ,学 业 成 就 等 , 则 称 为 能 力 测验 。 若 测量 兴趣 ,态度 ,性格 等 , 则 称 为 人 格 
测验 。 若 测量 心理 状态 (焦虑 、 压 力 、 恺 惧 、 成 疗 等 ), 则 称 为 心理 评定 量 表 。 

对 于 f( 心 理 法 则 ) ,因为 心理 现象 存在 不 同 ,所 以 法 则 也 是 千差万别 的 ;更 因为 心理 法 
则 基于 同一 种 心理 现象 存在 多 种 理论 ,所 以 导致 心理 法 则 具有 很 大 的 “派别 性 ”。 例 如 ,智力 
理论 包括 二 因素 论 、 群 因素 论 、 多 元 论 .PASS 模型 等 ;注意 理论 包括 过 滤器 理论 .资源 限制 
理论 等 ;人 格 理论 包括 三 个 人 格 特质 理论 (EPQ) ` 五 个 人 格 特质 理论 (NEO-PI) .十 六 个 人 格 
特质 理论 (16PF) 等 。 心 理 法 则 旦 现 出 多 样 性 ,因此 人 们 在 使 用 心理 学 工具 时 一 定 要 知道 它 
是 出 自 于 哪 一 个 理论 ,不 同 的 心理 学 理论 对 于 同一 种 心理 现象 的 解释 是 不 同 的 , 即 所谓 “ 理 
论 在 先 ,工具 在 后 ”。 

对 于 >( 心 理 的 量 ) ,是 通过 /(z) 转 换 过 来 的 。 如 上 所 述 ,存在 4 种 不 同 的 测量 量 纲 。 但 
是 ,一 般 说 来 ,心理 的 量 相对 不 够 完善 , 既 无 相等 单位 ,也 无 绝对 零点 。 心 理 的 量 无 相等 单 
位 ,例如 ,有 两 位 同学 甲 和 乙 , 甲 第 一 次 考 了 40 分 ,第 二 次 考 了 45 分 ,提高 了 5 分 ; 乙 第 一 次 
考 了 90 分 ,第 二 次 考 了 95 分 ,也 提高 了 5 分 。 哪 位 同学 的 5 分 更 容易 提高 呀 ? 答案 是 甲 
因为 一 般 地 从 40 分 提高 到 45 分 的 难度 远 远 小 于 从 90 分 提高 到 95 分 的 难度 ,这 表明 5 分 
A5 分 。 同 理 ,如 果 都 只 提高 了 1 分 ,那么 1 分 去 1 分 ,这 说 明 心理 的 量 1 个 单位 不 等 于 1 个 
单位 。 另 外 ,心理 的 量 也 很 难 找到 一 个 统一 的 起 点 (绝对 零点 ) ,一 个 学 生 考 了 0 分 ,并 不 代 
表 他 一 塌 糊 涂 ,也 并 不 意味 着 他 一 点 儿 智 商都 没有 , 考 了 0 分 也 只 能 说 明 对 于 这 次 考试 相对 
于 某 些 方面 他 是 不 足 的 ,并 不 代表 他 全 然 不 懂 . 甚 至 于 完全 没有 智商 了 。 我 们 只 能 说 ,该 学 
生 相 对 于 其 他 同龄 同学 他 的 成 绩 在 某 些 方面 是 不 足 的 。 然 而 ,心理 的 量 却 有 大 小 之 分 ,所 以 
学 生 的 成 绩 仍 可 排名 。 

综 上 所 述 ,心理 的 量 既 无 相等 单位 ,也 无 绝对 零点 ,但 有 大 小 之 分 。 根 据 表 1 -1 ,心理 的 
量 只 能 在 顺序 量 纲 上 表达 了 。 但 是 ,人 们 往往 会 通过 某 些 统计 技术 将 心理 的 量 从 顺序 量 纲 
调整 为 等 距 量 纲 或 等 比 量 纲 。 
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安娜 斯 塔 西 (A. Anastasi) 于 1963 年 给 心理 测验 下 了 一 个 定义 : 心理 测验 是 对 行为 样本 
客观 而 标准 化 的 测量 。 在 这 个 定义 中 ,包括 了 三 个 要 素 : 行为 样本 、 客 观 化 和 标准 化 。 这 表 
BH ,心理 测验 是 心理 测量 的 一 种 ,所 测 的 是 一 般 心理 素质 与 状态 ,工作 追求 客观 化 和 标准 化 。 
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测量 ,心理 测量 ,心理 测验 三 者 的 关系 如 图 1-3 所 示 。 


图 1-3 测量 ,心理 测量 和 心理 测验 的 关系 


从 图 1-3 可 以 看 出 ,测量 的 概念 最 大 ,其 次 是 心理 测量 ,最 后 是 心理 测验 。 这 表明 , 心 
理 测 量 只 是 测量 的 一 种 ,心理 测验 又 只 是 心理 测量 的 一 种 。 

为 了 说 明 心 理 测验 和 心理 测量 之 间 的 关系 , 举 一 例 子 来 说 明 。 有 一 位 同学 在 网 络 上 做 

一 个 小 小 的 测试 ,是 关于 心理 年 龄 方面 的 ,结果 测 出 其 心理 年 龄 80 多 岁 ,非常 郁闷 ! 跑 去 

问 测量 学 老师 该 怎么 办 ? 测量 学 老师 建议 她 按照 某 种 规则 过 一 周 再 测 一 次 。 这 位 学 生 按 照 
老师 的 吟 只 , 真 的 过 一 周 去 网 上 再 次 测试 了 ,心理 年 龄 的 结果 变 为 60 多 岁 ,她 很 高 兴 地 告诉 
了 测量 学 老师 。 测 量 学 老师 建议 她 过 一 周 再 测 一 次 ,心理 年 龄 的 结果 变 为 40 多 岁 ,她 更 高 
兴 了 。 测 量 学 老师 依然 建议 她 又 再 测 一 次 ,结果 她 的 心理 年 龄 回归 正常 一 一 20 多 岁 了 ! 最 
后 ,测量 学 老师 还 是 建议 她 再 测 ,结果 ,她 不 敢 再 测 了 ! 因为 她 害怕 结果 。 

对 于 这 个 例子 ,讨论 : 

(1) 这 个 测试 是 心理 测量 吗 ? 

(2) 这 个 测试 是 心理 测验 吗 ? 

答案 : (1) 这 个 测试 是 心理 测量 。 这 个 测试 符合 y= Ce) ,其 中 了 是 心理 年 龄 ,属于 心 
理 现象 ;f 是 这 个 测试 制定 者 规定 的 测试 法 则 ;y 是 80 岁 、60 岁 、40 岁 、20 岁 等 心理 年 龄 
( 量 )。 符 合 心理 测量 定义 及 三 个 要 素 的 要 求 , 因 此 这 个 测试 是 心理 测量 。 

(2) 这 个 测试 不 是 心理 测验 。 心 理 测验 必须 具备 三 个 要 素 ,即行 为 样本 、 客 观 化 和 标准 
化 。 行为 样本 来 自 实践 需要 ,并 根据 科学 理论 取样 获得 ,又 叫 常 模 样本 、 代 表 性 样本 、 标 准 化 
样本 。 这 个 测试 制定 者 没有 制定 有 效 常 模 , 谈 不 上 具有 常 模样 本 ,其 标准 设 定 仅仅 是 根据 自 
己 的 标准 来 给 定 测试 者 分 数 , 依 自我 规则 规定 测试 者 做 哪些 题 得 多 少 分 。 客 观 化 指标 包括 
难度 .区 分 度 、 信 度 和 效 度 , 这 个 测试 每 次 测试 分 数 摆动 太 大 ,没有 什么 稳定 性 ( 信 度 ) 可 言 ， 
更 谈 不 上 什么 有 效 性 ( 效 度 ) 。 另 外 ,这 个 测试 没有 经 过 严格 意义 上 的 标准 化 , 即 没有 经 过 严 
格 意义 上 的 测验 编制 标准 化 ,测验 实 施 标准 化 ,测验 评分 标准 化 和 测验 解释 标准 化 。 因 此 ， 
不 难看 出 ,这 个 所 谓 的 心理 年 龄 小 测试 不 具备 心理 测验 三 个 要 素 ,不 是 心理 测验 。 

根据 上 面 这 个 例子 .我 们 可 以 发 现 , 是 心理 测量 不 一 定 是 心理 测验 ,但 是 心理 测验 就 一 
定 是 心理 测量 。 这 表明 ,心理 测验 不 是 一 般 的 心理 测量 ,其 追求 客观 化 和 标准 化 。 心 理 测量 
要 成 为 心理 测验 ,必须 具备 以 下 三 个 要 素 。 

第 一 个 要 素 : 行为 样本 。 心 理 测量 是 间接 测量 ,具有 “间接 性 ”, 针 对 的 是 人 的 行为 , 因 
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为 人 的 心理 看 不 见 也 摸 不 着 ,不 能 直接 加 以 测量 ,只 能 通过 外 显 行为 导 引 出 来 , 即 心理 学 常 
RAK: 
S—O—R H-P 

在 公式 (1-1) 中 ,S 表示 刺激 ;O 表示 中 介 变 量 ;R 表示 行为 反应 。 

正 是 因为 我 们 要 测量 的 人 的 心理 只 能 通过 测量 行为 来 反映 ,所 以 这 种 策略 是 迁 回 策略 ， 
是 间接 的 。 当 然 ,行为 的 产生 需要 通过 一 定 刺激 触发 ( 导 引 出 来 ), 这 便 是 S。 可 供 导 引 行为 
产生 刺激 的 触发 方式 比较 多 ,如 提问 题 、 设 情景 、 布 现场 等 。 所 导 引 的 行为 可 以 根据 自我 观 
察 . 自 陈 报告 评定 .由 他 人 观察 报告 评定 、 动 作 反 应 口头 与 文字 作答 等 来 呈现 。 所 导 引 的 行 
为 表现 方式 呈现 出 多 样 化 。 心 理 是 产生 在 S—R 中 的 中 介 变 量 O, 只 能 间接 推测 出 来 。 这 样 
看 来 ,行为 才 是 测量 所 要 研究 的 重点 ,因为 心理 依赖 它 间接 推测 出 来 。 行 为 最 好 是 总 体 的 行 
为 ,与 刺激 联结 起 来 推测 时 说 服 力 最 强 ,但 是 总 体 有 时 难以 得 到 (如 限于 人 力 、 物 力 、 财 力 或 
信息 不 全 面 ) ,或 即使 有 时 能 得 到 ,但 也 不 划算 。 例 如 ,我 们 要 验 血 来 做 生理 检查 ,最 好 是 将 
血 全 部 抽 光 放 到 一 个 大 饶 里 ,这 是 总 体 ,但 有 谁 愿意 去 抽 血 呢 ? 抽 完了 还 没 检查 完 人 就 已 经 
死 了 ,不 划算 。 那 怎么 办 呢 ? 医生 通常 只 要 求 验 血 者 抽取 部 分 血液 来 代表 总 体 血 液 就 可 以 
了 ,结果 一 般 都 比较 准确 可 靠 ,这 是 因为 只 要 抽取 的 血液 样本 有 一 定 的 代表 性 ,就 无 须 抽 取 
总 体 血液 , 验 血 仍然 有 保障 。 同 理 , 对 于 行为 也 是 一 样 的 ,不 一 定 需要 行为 总 体 , 行 为 样本 也 
是 可 以 的 ,只 要 它 具 有 一 定 的 代表 性 ,是 能 反映 被 试行 为 特征 的 一 组 行为 ,就 可 以 了 。 但 是 ， 
行为 样本 仍然 存在 某 种 程度 的 偏差 ,不 能 反映 被 试 全 部 的 心理 功能 。 然 而 ,只 要 行为 样本 有 具 
有 足够 的 代表 性 ,就 可 以 推测 行为 总 体 。 

有 了 行为 样本 ,就 可 以 用 来 制定 常 模 。 常 模 是 用 来 提供 比较 的 标准 ,是 标准 化 样本 分 数 
的 分 布 。 在 许多 情况 下 , 常 模 是 一 组 有 代表 性 被 试 群体 的 平均 测验 分 数 。 这 个 平均 测验 分 
数 表示 的 是 普通 人 的 一 般 状况 。 解 释 个 人 的 测量 分 数 就 是 将 这 一 分 数 与 常 模 分 数 相 比较 ， 
看 该 分 数 高 于 或 低 于 常 模 分 数 多 少 。 例 如 ,在 能 力 测量 领域 ,如 果 某 一 个 人 的 测量 分 数 高 于 
常 模 分 数 , 那 么 此 人 的 能 力 水 平 高 于 普通 人 的 平均 水 平 ;相反 ,如 果 某 一 个 人 的 测量 分 数 低 
于 常 模 分 数 ,那么 此 人 的 能 力 水 平 低 于 普通 人 的 平均 水 平 。 常 模 既 然 是 一 组 有 代表 性 的 被 
试 群体 的 平均 测验 分 数 ,那么 编制 测验 常 模 的 关键 是 要 抽取 有 代表 性 的 被 试 样本 , 它 要 求 按 
照 科学 的 抽样 原则 抽取 样本 中 的 每 一 个 个 体 。 这 里 需要 特别 说 明 的 是 ,不 要 把 常 模 的 概念 
与 我 们 通常 理解 的 标准 的 概念 混淆 起 来 。 标 准 指 的 是 理想 上 期 望 达到 的 程度 ,而 常 模 指 的 
是 被 试 群体 实际 达到 的 程度 。 以 常 模 为 参照 编制 的 测验 叫 常 模 参照 测验 ,以 标准 为 参照 编 
制 的 测验 叫 标准 参照 测验 。 

第 二 个 要 素 : 客观 化 。 客 观 化 是 指 测验 项 目的 功能 与 强度 .整个 测验 能 测 什么 与 测量 
精度 的 大 小 等 ,要 经 由 “事实 ? 来 检验 和 判定 。 施 测 要 结构 化 ` 规 范 化 ,要 严格 控制 误差 。 评 
价 心理 测验 的 客观 化 指标 包括 “四 度 ”, 即 信 度 、 效 度 、 难 度 和 区 分 度 。 总 之 ,心理 测验 要 采取 
“实证 模式 ”。 

评价 一 个 测验 是 否 科学 的 重要 指标 是 信和 度 和 效 度 。 信 度 是 指 一 个 测验 的 可 靠 性 , 即 
用 同一 测验 多 次 测量 同一 团体 所 得 结果 之 间 的 一 致 性 程度 。 我 们 用 钢 片 卷 尺 去 测量 一 根 
木 杆 的 长 度 , 所 得 结果 是 可 靠 的 ,因为 无 论 是 由 一 个 人 数 次 测量 ,还 是 分 别 由 数 个 人 去 测 
量 , 所 测 得 的 结果 都 将 是 高 度 一 致 的 。 如 果 改 用 橡皮 软 尺 去 测量 一 根木 杆 的 长 度 , 那 么 一 
个 人 数 次 测量 或 分 别 由 数 个 人 去 测量 的 结果 就 难以 高 度 一 致 。 这 就 是 说 ,橡皮 软 尺 这 种 


= 


H 
t ME 


口 


口 


Ba 
re 心理 测量 hh 


测量 工具 的 信 度 不 高 ,弹性 太 大 ,不 稳定 。 由 此 可 见 , 信 度 是 衡量 测验 科学 性 的 最 基本 的 
指标 。 效 度 指 的 是 一 个 测验 的 有 效 性 , 即 一 个 测验 在 多 大 程度 上 能 够 测 到 它 所 要 测量 的 
心理 特质 。 若 一 个 测验 所 测 得 的 不 是 它 所 要 测 得 的 特质 , 则 这 个 测验 就 是 无 效 的 。 例 如 ， 
智力 测验 所 要 测 得 的 特质 应 该 是 智力 ,如 果 一 个 智力 测验 测 到 的 不 是 智力 ,而 是 知识 , 那 
么 无 论 它 的 信和 度 有 多 高 ,这 个 智力 测验 对 于 测量 智力 都 是 无 效 的 。 由 此 可 见 , 效 度 是 衡量 
测验 科学 性 的 最 重要 的 指标 。 

评价 一 道 题目 是 否 合理 的 重要 指标 是 难度 和 区 分 度 。 难 度 和 区 分 度 是 题目 质量 重要 的 
参考 指标 。 难 度 反 映 的 是 题目 的 难 易 程度 ,而 区 分 度 反映 的 是 题目 的 鉴别 能 力 。 

诚然 ,一 份 测验 或 一 道 题目 好 还 是 不 好 ,都 要 经 由 “事实 ”说 了 算 , 不 是 某 个 人 说 了 算 的 
(这 是 主观 的 ) ,这 才 是 客观 化 。 

第 三 个 要 素 : 标准 化 。 标 准 化 是 编制 测验 的 一 个 重要 步骤 ,也 是 使 用 测验 的 一 个 重要 
条 件 。 为 了 使 接受 测量 的 不 同 个 体 所 获得 的 分 数 具 有 可 比 性 ,测验 的 条 件 必须 对 所 有 的 个 
体 都 是 相同 的 。 在 相同 的 测验 情境 中 ,唯一 的 自 变量 是 正在 接受 测量 的 个 体 的 心理 特质 ,这 
样 的 测量 结果 才 具 有 可 比 性 。 所 谓 标准 化 ,是 指 测验 的 编制 实施、 评分 以 及 分 数 解 释 的 程 
序 的 一 致 性 。 测 验 标准 化 需要 具备 下 列 条 件 。 

(1) 测验 编制 标准 化 。 测 验 编制 要 求 编制 的 程序 规范 ,题目 合理 ,所 有 接受 测量 的 个 体 
实施 相同 或 等 值 的 测验 内 容 。 如 果 测 验 内 容 不 同 ,那么 所 测 得 的 结果 便 没有 可 比较 的 基础 。 

(2) 测验 实施 标准 化 。 这 是 测验 标准 化 的 第 二 个 条 件 , 即 所 有 接受 测量 的 个 体 必须 在 
相同 的 施 测 条 件 下 接受 测验 ,其 中 包括 : 四 相同 的 测验 情境 :@ 相 同 的 指导 语 ;四 相同 的 测 
验 时 限 。 

(3) 测验 评分 标准 化 。 测 验 评分 标准 化 要 求 评分 结果 具有 客观 性 ,也 只 有 当 评 分 的 结 
果 具 备 了 客观 性 ,才能 将 测量 分 数 的 差异 归 之 于 个 体 心理 特质 的 差异 。 为 此 ,测验 中 所 制定 
的 评分 规则 ,要 足以 使 不 同 的 评分 人 的 评分 结果 保持 最 大 限度 的 一 致 。 

(4) 测验 解释 标准 化 。 编 制 测验 的 一 个 重要 步骤 是 编制 测验 常 模 。 在 心理 测量 领域 ， 
由 于 测量 分 数 没有 绝对 零点 作为 参照 点 ,所 以 ,孤立 地 看 待 一 个 测量 分 数 是 没有 什么 意义 
的 ,只 有 将 该 测量 分 数 与 他 人 的 测量 分 数 相 比较 ,才能 显示 出 它 的 意义 。 常 模 的 功能 就 是 给 
解释 测量 分 数 提供 一 个 可 比较 的 参 对 测验 分 数 进行 解释 时 , 既 要 参照 测验 所 提供 的 
常 模 ,也 要 参考 其 他 一 些 重 要 的 指标 ,如 信和 度 、 效 度 等 。 

至 此 ,我 们 可 以 建立 起 心理 测验 三 个 要 素 的 框架 ,如 图 1 -4 所 示 。 

这 样 看 来 ,根据 图 1 — 4 的 心理 测验 三 个 要 素 的 框架 ,本 书 第 二 章 一 第 六 章 都 统一 到 心 
理 测 验 的 三 个 要 素 之 下 ,心理 测验 就 成 为 经 典 测验 理论 (Classical Test Theory,CTT) 的 核 
心 概念 .中 心思 想 或 灵魂 ! 

根据 前 述 ,心理 测量 就 是 要 获得 有 关 人 们 心理 特性 的 数量 化 认识 。 随 着 测量 实践 的 发 
展 , 对 测验 过 程 与 结果 进行 量化 分 析 的 技术 , 即 心理 计量 学 的 理论 与 技术 ,就 不 断 地 发 展 起 
来 。 其 中 ,最 先 发 展 起 来 的 心理 计量 学 理论 是 经 典 测验 理论 。 它 认为 测验 中 的 观察 分 数 等 
于 真 分 数 与 随机 误差 分 数 之 和 。 到 20 世纪 30 年 代 末 , 这 种 理论 已 经 提出 了 一 整套 分 析 测 
验 量 化 的 技术 ,如 常 模 ( 第 二 章 ) 、 信 和 度 (第 三 章 ) 、 效 度 (第 四 章 ) 、 难 度 与 区 分 度 (第 五 章 ), 还 
发 展 了 比较 完善 的 标准 化 技术 (第 六 章 ) ,包括 测验 编制 标准 化 ,测验 实施 标准 化 ,测验 评分 
标准 化 和 测验 解释 标准 化 。 通 过 经 典 测验 理论 ,也 编制 了 一 些 具体 的 实用 的 心理 测验 ,如 智 
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图 1-4 心理 测验 三 个 要 素 的 框架 


力 测验 (第 七 章 )\ 人 格 测验 (第 八 章 ) 和 心理 评定 量 表 (第 九 章 ) 。 

自 20 世纪 五 六 十 年 代 起 ,在 经 典 测验 理论 基础 上 ,一 些 心理 测量 学 专家 又 陆续 提出 了 
两 个 现代 测验 理论 ,包括 项 目 反应 理论 (Item Response Theory,IRT)( 第 十 章 ) 和 概 化 理论 
(Generalizability Theory,GT)( 第 十 一 章 )。 这 两 个 现代 测验 理论 从 不 少 方面 深化 和 拓展 了 
经 典 测验 理论 ,但 必须 使 用 更 为 高 深 的 现代 数理 统计 学 方法 ,一 般 都 要 借助 计算 机 来 完成 分 
析 与 计算 。 


第 二 节 ”心理 测验 的 分 类 与 功能 


心理 测验 的 根本 作用 在 于 判别 人 的 心理 的 个 别 差 异 。 但 是 ,人 的 心理 是 复杂 的 。 因 为 
心理 测验 需要 在 不 同 条 件 下 为 不 同 的 目的 服务 ,所 以 心理 测验 的 分 类 与 功能 也 就 有 多 种 。 


一 、 必 理 测验 的 分 类 


分 类 要 遵照 一 定 的 标准 。 分 类 的 标准 不 同 ,分 类 后 所 得 的 结果 也 就 不 同 。 心 理 测验 按 
不 同 的 标准 ,可 以 得 到 下 述 的 不 同 分 类 。 

(一 ) 按 测验 所 测 的 心理 特性 分 类 

(1) 能 力 测验 。 能 力 测验 测量 的 心理 特性 是 能 力 ,包括 一 般 能 力 测验 、 能 力 倾 向 测验 、 
学 业 成 绩 测 验 、 学 业 成 就 测验 等 。 一 般 能 力 测验 又 称 智力 测验 。 能 力 还 可 分 为 实际 能 力 和 
潜在 能 力 两 种 。 对 潜在 能 力 的 测量 ,通常 又 叫 对 能 力 倾 向 或 “性 向 ”的 测量 。 学 业 成 绩 测验 
和 学 业 成 就 测验 也 可 视 为 能 力 测验 。 学 业 成 绩 测验 是 指 对 个 体 在 一 个 阶段 的 学 习 或 训练 之 
后 所 掌握 的 知识 和 技能 的 发 展 水 平 进行 学 习 成 绩 测 定 的 测验 ,如 语 、 数 、 英 等 学 科 测验 。 学 
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业 成 就 测验 是 指 在 特定 领域 为 检测 应 试 者 对 有 关 知 识 和 技能 的 掌握 程度 而 设计 的 测验 ,是 
测量 人 在 接受 教育 后 所 取得 的 学 业 成 就 的 测验 ,如 大 学 人 学 时 学 业 水 平 测验 .驾照 考试 等 。 

(2) 人 格 测验 。 人 格 测验 测量 的 心理 特性 是 人 格 ,是 个 性 中 除 能 力 以 外 的 部 分 , 亦 可 看 
作 是非 能 力 测验 ,主要 测量 性 格 .气质 等 方面 的 个 性 心理 特征 及 其 相关 行为 。 

(3) 心理 评定 量 表 。 心 理 评定 量 表 的 主要 用 途 是 对 个 体 或 群体 的 心理 状况 作出 评定 。 
使 用 心理 评定 量 表 , 不 但 要 对 个 体 或 群体 的 心理 与 行为 作出 评定 ,而 且 还 要 对 与 心理 与 行为 
相 联系 的 身体 、 环 境 和 社会 等 因素 作出 评定 。 心 理 评定 量 表 是 用 来 量化 观察 中 所 得 印象 的 
一 种 心理 测量 工具 。 

(二 ) 按 测验 的 功能 分 类 

(1) 智力 测验 。 如 比 内 (Binet) 智 力量 表 、 韦 氏 (Wechsler) 智 力量 表 、 瑞 文 (Raven) 推 理 
测验 等 。 智 力 测验 测量 的 心理 特性 是 一 般 能 力 。 随 着 智力 理论 研究 的 深入 ,人 们 不 但 重视 
对 逻辑 分 析 智 力 的 测量 ,而 且 更 加 重视 对 社会 实践 智力 的 测量 。 

(2) 特殊 能 力 测验 。 如 音乐 ,绘画 、 机 械 \、 文 书 、 飞 行 员 测验 ,公务 员 考 试 ,专业 技能 考试 
等 。 特 殊 能 力 是 指 音乐 美术、 体育 .机械 、 飞 行 、 创 造 力 等 方面 的 特殊 才能 。 随 着 社会 发 展 
变化 的 加 速 , 人 们 不 但 重视 对 音乐 .美术 等 特殊 能 力 的 测量 ,而 且 更 加 重视 对 创造 性 能 力 的 
测量 。 

(3) 人 格 测验 。 如 MMPI、16PF、EPQ、 罗 夏 墨迹 测验 、 主 题 统 觉 测验 (TAT) 等 。 人 格 
测验 主要 测量 性 格 、 气 质 、 情 绪 状 态 、 人 际 关系 、 动 机 、 兴 趣 、 态 度 等 ,一 般 不 把 能 力 包括 在 内 。 

(4) 心理 评定 量 表 。 如 SCL-90、SDS、SAS、SES、LES、SSRS、CSQ 等 。 心 理 评 定量 表 主 
要 包括 心理 卫生 综合 评定 量 表 、 情 绪 及 相关 问题 评定 量 表 和 应 激 及 相关 问题 评定 量 表 等 。 

(三 ) 按 测验 材料 的 性 质 分 类 

(1) 文字 测验 。 或 称 纸 笔 测验 .言语 测验 。 如 MMPI.16PF、EPQ , 韦 氏 智力 量 表 中 的 言 
语 测验 等 。 所 用 测验 材料 为 文字 ,作答 也 用 文字 。 此 类 测验 易 受 文化 背景 的 影响 ,文化 程度 
太 低 者 更 难于 接受 。 

(2) 非 文 字 测 验 。 或 称 操作 测验 、 非 言语 测验 ,如 罗 夏 墨迹 测验 .TAT、Raven, 韦 氏 智力 
量 表 中 的 操作 测验 等 。 大 多 要 求 对 图 形 、 实 物 、 工 具 、 模 型 进行 辨识 和 操作 ,无 须 使 用 文字 作 
答 , 故 不 易 受 文化 因素 的 影响 。 

(四 ) 按 测验 材料 的 严谨 程度 分 类 

d) 客观 测验 。 或 称 自 陈 量 表 , 自 陈 就 是 自我 陈述 、 自 我 报告 。 其 特点 ; 刺激 材料 的 意 
义 明确 ,作答 有 明确 规定 ,如 MMPI、16PF 、EPQ 等 。 客 观测 验 一 般 为 调查 表 。 所 谓 调查 表 ， 
就 是 了 解 被 试 情况 的 细 目 表 , 相 当 于 一 个 标准 化 的 访谈 提纲 。 一 个 客观 测验 往往 包含 几 个 
分 量 表 , 可 以 同时 测量 几 个 特质 ,通常 采用 纸 笔 形式 ,但 容易 产生 反应 心 向 和 反应 方式 。 所 
谓 反 应 心 向 是 指 作出 不 符合 实际 情况 的 回答 ,以 便 使 别人 对 自己 形成 某 种 特殊 印象 。 所 谓 
反应 方式 是 指 独立 于 题目 内 容 以 外 的 反应 倾向 ,如 猜测 、 默 认 、 折 中 等 。 

(2) 投射 测验 。 其 特点 : 刺激 材料 的 意义 不 明确 ,作答 没有 明确 规定 。 测 验 刺激 无 组 织 
(如 墨迹 图 ) ,没有 明确 意义 ,问题 模糊 ,对 被 试 的 作答 内 容 要 求 并 无 明确 规定 。 部 分 人 格 测 
验 属 此 类 型 ,如 罗 夏 墨迹 测验 (联想 法 )、TAT( 构 造 法 ) ,词语 联想 测验 (联想 法 )、 句 子 完 成 测 
验 (完成 法 ) 绘画 测验 (表露 法 ) 等 。 图 1 -5 是 罗 夏 墨迹 测验 其 中 一 张 图 ;图 1-6 是 TAT 
其 中 一 张 图 。 
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图 1-5 罗 夏 墨迹 测验 中 的 图 片 示例 图 1-6 TAT 中 的 图 片 示例 


客观 测验 与 投射 测验 在 以 下 三 个 方面 存在 不 同 : 一 是 人 格 的 假设 ,客观 测验 认为 人 格 
是 意识 层面 的 ,而 投射 测验 认为 人 格 是 潜意识 层面 的 ;二 是 测验 的 材料 ,客观 测验 采用 的 是 
意义 明确 的 调查 表 ,而 投射 测验 采用 的 是 意义 不 明确 的 材料 :三 是 被 试 的 反应 ,客观 测验 通 
常 是 封闭 的 ,而 投射 测验 通常 是 开放 的 。 客 观测 验 的 优点 : 容易 实现 标准 化 ,效率 高 ;缺点 : 
容易 出 现 反 应 偏差 。 投 射 测验 的 优点 : 可 以 对 人 格 做 综合 分 析 ,被 试 不 容易 有 虚假 反应 ; 缺 
点 : 信 效 度 较 低 ,不 容易 标准 化 ,对 主 试 的 要 求 较 高 。 

(五 ) 按 接受 测验 对 象 的 规模 分 类 

(1) 个 别 测验 。 每 次 只 对 一 名 被 试 施 测 , 即 以 一 对 一 的 形式 进行 ,如 比 内 智力 量 表 、 韦 
氏 智力 量 表 等 。 其 优点 是 主 试 对 被 试 的 作答 反应 有 较 多 观察 与 调控 机 会 ,如 对 一 些 幼儿 和 
特殊 群体 (如 弱智 者 等 ) 进 行 测验 ,非得 面对面 施 测 , 则 采用 个 别 测验 较 好 。 但 是 ,这 类 测验 
费时 ,短期 内 不 易 收 集 到 大 量 人 群 的 资料 , 施 测 手续 复杂 , 主 试 应 专门 训练 ,因而 使 用 中 也 显 
露出 一 定 的 局 限 性 。 

(2) 团体 测验 。 可 以 同时 对 多 名 被 试 施 测 , 时 间 经 济 ,但 对 被 试 观察 和 控制 差 , 易 产 生 
测量 误差 ,如 陆军 甲 种 和 乙 种 测验 .MMPI、16PF、EPQ 等 。 世 界 上 第 一 个 团体 智力 测验 是 
陆军 甲 种 和 乙 种 测验 ,产生 于 第 一 次 世界 大 战 期 间 , 其 目的 是 分 门 别 类 甄选 近 200 万 新 兵 ， 
陆军 甲 种 测验 适合 有 一 定 文化 水 平 .母语 为 英语 的 被 试 ,共有 8 个 分 测验 ,为 文字 测验 ;而 陆 
军 乙 种 测验 适合 文化 程度 较 低 或 母语 为 非 英 语 的 被 试 ,共有 7 个 分 测验 ,为 非 文 字 测验 。 

(六 ) 按 测验 对 作答 行为 的 要 求 分 类 

(1) 最 高 成 就 测验 。 或 称 最 佳 行为 测验 、 最 高 作为 测验 、 最 高 行为 测验 。 此 类 测验 要 求 
被 试 的 作答 行为 尽 可 能 地 做 好 ,其 内 容 与 认 知 过 程 有 关 , 答 案 有 正 误 之 分 ,能 力 测验 属于 此 
种 类 型 。 

(2) 典型 行为 测验 。 此 类 测验 要 求 被 试 按 通 常 习惯 方式 作答 ,其 内 容 与 典型 行为 有 关 ， 
答案 无 正 误 之 分 ,人 格 测验 属于 此 种 类 型 。 

(七 ) 按 测验 分 数 解释 的 参照 体系 分 类 

(1) 常 模 参 照 测 验 。 参 照 体 系 是 常 模 , 即 所 测 被 试 团体 在 所 测 特性 上 实 有 水 平 的 分 布 
状态 。 大 多 数 能 力 测验 和 人 格 测 验 属于 常 模 参 照 测 验 ,如 我 国 的 中 考 与 高 考 `.EPQ、MMPI 
等 。 这 类 测验 上 的 观察 分 数 要 转换 成 导出 分 数 ,然后 根据 导出 分 数 并 利用 常 模 资 料 来 说 明 
被 试 在 所 属 团 体 中 的 相对 地 位 ,从 而 解释 清楚 测验 结果 的 应 有 意义 。 

(2) 标准 参照 测验 。 参 照 体系 是 社会 的 应 有 要 求 , 即 所 设置 的 标准 。 一 些 能 力 测验 属 
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于 标准 参照 测验 ,如 我 国 的 英语 四 六 级 考试 ,心理 咨询 师资 格 考 试 .普通 话 等 级 考试 等 。 这 
类 测验 被 试 的 表现 要 跟 所 设置 的 标准 去 作 比较 ,看 其 是 否 达标 及 其 掌握 的 程度 来 解释 测验 
分 数 的 意义 。 

( 八 ) 按 测验 的 目的 分 类 

(1) 描述 性 测验 。 目 的 在 于 对 个 体 的 能 力 、 人 性格 兴趣、 知识 水 平 进行 描述 。 描 述 性 测 
验 既 有 总 分 形式 ,用 于 说 明 整 体 水 平 状况 ,也 有 具体 分 数 形式 ,用 于 说 明 不 同方 面 的 具体 
RF: 

(2) 诊断 性 测验 。 目 的 在 于 对 个 体 某 方面 的 问题 进行 诊断 ,此 类 测验 通常 需要 有 多 方 
面 的 分 数 。 

G) 预测 性 测验 。 目 的 在 于 从 测验 成 绩 推断 被 试 未 来 表现 和 可 能 达到 的 水 平 。 

显然 ,一 个 测验 的 描述 .诊断 、 预 测 的 功能 并 不 是 截然 对 立 的 ,同一 个 测验 可 同时 具有 这 
三 方面 功能 。 但 在 实际 工作 中 ,有 时 候 需 要 测验 集中 突出 某 一 方面 的 功能 。 比 如 ,用 在 大 学 
入 学 考试 中 的 学 业 成 就 测验 ,就 要 求 突出 预测 的 功能 ;而 指导 后 进 生 时 使 用 的 摸底 测验 , 常 
需要 突出 诊断 的 功能 ;用 于 职业 指导 中 的 性 格 测验 , 却 需要 突出 描述 的 功能 。 

CAL) 按 测验 的 应 用 领域 分 类 

(1) 教育 测验 。 除 了 包括 学 业 成 就 测验 外 ,还 包括 智力 测验 .特殊 能 力 测验 .人 格 测验 
等 。 各 种 教育 测验 几乎 都 在 学 校 中 得 到 应 用 ,教育 领域 是 心理 测验 应 用 的 最 大 领域 。 现 在 ， 
美英 等 国家 标准 化 的 成 就 测验 在 绝对 数目 上 已 超过 了 所 有 其 他 类 型 的 标准 化 测验 。 

(2) 职业 测验 。 现 代 经 济 特别 重视 人 才 的 作用 和 劳动 者 的 素质 ,因而 心理 测验 也 就 成 
了 职业 决策 中 的 重要 工具 。 无 论 是 个 人 的 职业 规划 与 咨询 ,还 是 机 构 的 人 员 选 拔 、 安 置 . 管 
理 和 开发 ,都 要 用 到 职业 测验 ,包括 多 重 能 力 倾向 成 套 测验 、 特 殊 能 力 倾向 测验 、 测 查 特定 专 
业 岗 位 能 力 与 技能 的 专项 测验 .职业 兴趣 测验 等 。 这 些 测 验 常常 是 专 为 职业 应 用 目的 而 开 
发 出 来 的 。 除 此 之 外 ,职业 领域 还 包括 一 些 专门 为 颁发 执照 和 资格 证 书 而 开发 的 测验 ,也 包 
括 一 些 政府 与 军队 使 用 的 测验 等 。 目 前 ,人 格 测验 和 某 些 学 业 成 就 测验 在 职业 决策 中 也 常 
被 使 用 。 为 选拔 管理 人 员 ,职业 测验 还 发 展 了 评价 中 心 技术 和 其 他 专门 的 评定 技术 。 

(3) 临床 与 咨询 测验 。 在 教育 .职业 、 医 疗 卫生 乃至 司法 等 领域 ,都 会 有 开展 临床 与 咨 
询 研 究 工作 的 需要 。 广 义 的 临床 与 咨询 测验 是 指 所 有 有 助 于 临床 与 咨询 工作 之 用 的 心理 测 
验 , 包 括 许多 智力 和 人 格 测验 在 内 ;而 狭义 的 临床 与 咨询 测验 是 指 专 为 医学 临床 应 用 和 某 些 
心理 咨询 辅导 而 开发 的 测验 ,包括 神经 心理 测验 .儿童 心智 缺陷 测验 ,心理 评定 量 表 等 。 


二 、 心 理 测 验 的 功能 


心理 测验 的 最 基本 的 功能 ,就 是 认识 和 鉴定 人 的 心理 的 个 别 差异 ,其 他 功能 都 是 由 此 而 
衍生 出 来 的 。 人 的 心理 的 个 别 差异 ,是 在 遗传 素质 .后 天 环境 以 及 个 体 自身 活动 的 共同 作用 
下 逐步 形成 的 。 心 理 测验 的 根本 功能 就 是 要 认识 和 鉴定 清楚 人 们 的 心理 特性 、 结 构 发 展 水 
平 的 实况 以 及 潜力 如 何 , 跟 他 人 的 差别 何在 ,并 数量 化 地 准确 地 表示 出 来 。 只 有 认识 和 鉴定 
了 每 个 个 体 的 特异 性 ,把 握 了 其 所 实际 具有 的 自身 特点 状况 ,才能 更 有 针对 性 地 来 正确 对 待 
和 处 理 个 体 差异 ,用 其 所 长 、 避 其 不 足 , 并 对 其 给 出 合理 的 发 展 建议 。 

如 果 心 理 测验 准确 地 得 出 了 对 个 体 心理 的 量化 认识 .那么 就 可 据 此 很 好 地 去 描述 其 水 
平和 结构 ,诊断 其 问题 的 所 在 和 根源 ,并 对 其 未 来 作出 有 根据 的 预测 。 因 而 ,在 测验 认识 和 
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鉴定 个 别 差异 这 一 根本 功能 的 基础 上 ,就 会 派生 出 描述 ,诊断 和 预测 的 其 他 功能 。 不 过 , 因 
为 描述 的 是 人 的 心理 面貌 ,水 平和 结构 ,诊断 的 是 个 体 心 理 上 所 存在 的 认 知 与 能 力 缺 陷 、 情 
绪 困 扰 和 人 格 问题 ,预测 的 是 个 体 未 来 的 行为 表现 或 心理 发 展 所 可 能 达到 的 水 平 ,所 以 都 只 
是 一 些 事实 性 问题 ,是 当前 实 有 的 事实 或 未 来 可 能 的 事实 。 然 而 ,这 些 事实 对 主体 的 需要 来 
说 ,究竟 具有 什么 意义 呢 ? 是 取得 了 进步 ,有 发 展 ,还 是 停滞 或 倒退 ? 是 能 满足 个 体 需要 还 
是 与 需要 不 相 适应 呢 ? 显然 ,有 必要 认真 和 弄 清楚 , 亦 即 对 事实 的 价值 意义 ,还 应 作出 更 为 深 
入 的 揭示 。 但 是 ,如 果 连 基本 的 事实 都 没有 搞 清楚 ,那么 价值 评定 的 活动 就 无 从 谈 起 。 因 
此 ,在 认识 和 鉴定 个 别 差 异 , 并 进行 了 可 靠 描 述 、 诊 断 和 预测 之 后 ,就 有 必要 也 才 有 可 能 去 对 
个 体 的 心理 面貌 和 发 展 状况 作出 评价 。 如 此 看 来 ,心理 测验 还 具有 评价 的 功能 。 当 然 , 这 种 
评价 的 功能 是 更 为 进一步 的 派生 功能 ,但 绝 非 意 义 更 小 的 功能 。 

总 之 ,心理 测验 的 基本 功能 共 包括 五 大 部 分 ,分 别 是 认识 和 鉴定 个 别 差异 的 功能 、 描 述 
的 功能 ,诊断 的 功能 、 预 测 的 功能 以 及 评价 的 功能 。 

当心 理 测验 具体 应 用 到 社会 生活 不 同 领 域 时 ,如 应 用 到 教育 领域 .职业 与 人 事 管 理 领 
域 ,心理 咨询 与 辅导 领域 ,以 及 其 他 领域 时 ,与 具体 的 条 件 相 结合 ,心理 测验 就 可 能 产生 相应 
的 功能 ,具体 如 下 。 

第 一 ,就 教育 领域 而 言 ,心理 测验 会 发 挥 出 有 利于 教师 更 好 地 了 解 学 生 、 及 时 发 现 学 生 
心理 问题 ,促进 因材施教 等 功能 。 心 理 测验 是 教师 了 解 学 生 的 有 用 手段 。 通 过 心理 测验 , 教 
师 可 以 了 解 学 生 的 能 力 水 平 , 性 格 特点 、 兴 趣 爱 好 、 学 习 动 机 等 多 种 资料 ,这 有 利于 “ 因 材 施 
教 "。 心 理 测验 也 可 使 教师 发 现 学 生 的 心理 问题 ,以 便 及 时 地 进行 心理 辅导 与 干预 。 心 理 测 
验 是 教育 评价 的 重要 工具 。 现 代 教 育 强调 人 的 素质 的 全 面 发 展 ,传统 教育 考试 方法 已 不 能 
适应 现代 教育 的 要 求 。 心 理 测验 可 测量 学 生 的 智能 品德 .个 性 等 方面 的 发 展 ,从 而 为 素质 
教育 提供 更 为 科学 的 有 力 手段 。 

第 二 ,就 职业 与 人 事 管理 领域 而 言 ,心理 测验 会 发 挥 出 王选 ,安置 和 分 类 的 功能 。 招 工 、 
为 某 个 管理 岗位 选拔 人 员 等 ,都 可 采用 心理 测验 的 办 法 。 但 测验 的 甄选 功能 不 仅 可 以 表现 
为 选 优 ,还 可 表现 为 汰 劣 ,如 甄别 出 不 适 于 服 兵役 的 精神 病 患者 。 安 置 是 指 把 所 有 人 员 的 特 
点 与 实况 都 了 解 清楚 ,然后 一 一 安排 到 合适 的 岗位 上 去 。 这 里 所 做 的 是 对 全 体 人 员 的 合理 
分 派 ,心理 测验 当然 可 提供 基础 资料 。 分 类 是 把 人 员 分 成 不 同类 别 , 如 合格 的 达标 人 员 和 不 
合格 而 尚 需 培 训 的 人 员 等 。 现 在 ,职业 资格 认定 和 执业 证 书 考试 ,就 是 市 场 经 济 运作 中 心理 
测验 的 一 项 重要 社会 职能 ,是 心理 测验 分 类 功能 的 具体 运用 与 体现 。 

第 三 ,就 心理 咨询 与 辅导 领域 而 言 ,心理 测验 会 发 挥 出 收集 资料 .作出 评估 与 诊断 、. 协 
助 决策 .对 辅导 建议 或 干预 措施 作出 评价 等 功能 。 当 最 初 接待 来 访 者 时 ,我 们 可 能 根本 不 
了 解 他 的 有 关 情 况 ,进行 心理 测验 是 获取 信息 资料 的 一 种 基本 办 法 。 要 作出 较为 准确 的 
心理 评估 ,特别 是 作出 明确 诊断 ,就 要 有 针对 性 地 运用 恰当 工具 来 进行 心理 测验 。 其 实 ， 
心理 评估 是 一 个 不 断 提 出 与 检验 假设 .作出 专业 判断 的 过 程 。 在 把 握 来 访 者 的 实况 、 特 
点 `\ 问 题 的 基础 上 ,我 们 可 能 要 提出 辅导 建议 或 实施 干预 措施 ,比如 指导 来 访 者 选择 职业 、 
选读 专业 等 ,或 是 为 来 访 者 安排 认 知 疗法 或 行为 疗法 等 干预 措施 。 这 里 ,不 论 是 辅助 决策 
还 是 监控 实施 ,心理 测验 都 可 发 挥 重 要 的 作用 。 另 外 ,我 们 要 评价 辅导 建议 或 干预 措施 的 
效果 ,或 评价 来 访 者 在 教育 辅导 或 康复 训练 实施 后 的 发 展 程度 与 水 平 , 也 离 不 开心 理 测验 
的 使 用 。 
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第 四 ,就 其 他 领域 而 言 .如 对 科研 领域 ,心理 测验 可 以 发 挥 收集 资料 、 实 验 分 组 、 提 出 与 
检验 假设 等 功能 。 由 于 篇 幅 所 限 ,我 们 在 这 里 就 不 再 展开 论述 了 。 


第 三 节 ”心理 测验 的 历史 沿革 与 发 展 


一 、 中 国 十 代 必 理 测量 的 思想 和 实践 探索 


“人 贵 有 自 知之 明 。” 认 识 人 自身 是 很 重要 的 认识 活动 。 心 理 测量 就 是 要 获得 对 人 的 心 
理 特性 数量 化 认识 的 一 种 专门 的 认识 活动 , 随 着 人 类 实践 与 认识 能 力 的 发 展 , 它 必然 要 逐步 
地 发 展 起 来 。 中 国 是 有 五 千 多 年 文明 史 的 古国 ,历史 上 ,我 国人 民 在 心理 测量 的 探索 上 做 出 

首先 ,在 测量 的 思想 理论 基础 方面 ,我 国 的 思想 家 很 早 就 特别 重视 对 人 的 心理 的 个 别 差 
异 的 认识 ,并 在 人 类 历史 上 最 早 提出 了 人 的 心理 可 以 测量 的 论断 。 早 在 2500 年 前 春秋 时 期 
的 孔子 ,就 提出 了 “性 相近 , 习 相 远 ” 的 观点 ,认为 人 的 后 天 行为 可 能 会 有 巨大 差异 ;并 提出 了 
“上 智 "与 “下 轧 ” 的 概念 ,认为 人 的 智力 是 有 差异 且 可 以 归属 为 不 同类 别 的 。 因 此 ,当代 著名 
心理 测验 学 家 艾 森 克 就 把 心理 的 “差异 和 分 类 ”思想 直接 溯源 于 孔子 。 随 后 ,战国 时 期 的 孟 
子 , 更 提出 了 “ 权 , 然 后 知 轻重 ; 度 ,然后 知 长 短 。 物 皆 然 , 心 为 其 "的 论断 ,明确 承认 心理 特性 
和 物理 属性 一 样 ,是 可 以 度量 、 可 以 测量 的 。 而 我 们 所 熟悉 的 西方 心理 测量 界 的 名 言 ,“ 凡 窜 
观 存在 的 事物 都 有 其 数量 "( 桑 代 克 ,1918)、“ 凡 有 其 数量 的 事物 都 可 以 测量 "( 麦 柯 尔 ， 
1939) ,是 这 之 后 两 千 多 年 的 20 世纪 才 出 现 的 。 

其 次 ,在 测量 实践 和 技术 方面 ,我 国 也 很 早 就 做 了 多 方 探索 ,并 影响 深远 。 我 国 古 代 有 
选 士 制度 ,先是 选 武士 ,后 是 选 文士 。 西 周 时 ,诸侯 岁 献 贡 士 于 天 子 ", 天 子 试 之 于 射 宫 ”。 
《 礼 记 。 射 义 》 记 载 , 周 天 子 对 诸侯 所 贡 士 人 要 亲自 考核 ,不 但 要 选拔 出 合格 的 士 , 还 要 对 诸 
侯 献 士 的 好 坏 耶 以 奖 罚 。 其 做 法 是 :要 考察 所 贡 武 士 射箭 的 技艺 “其 容 体 比 于 礼 ,其 节 比 于 
乐 , 而 中 多 者 ,得 与 于 祭 。 其 容 体 不 比 于 礼 ,其 节 不 比 于 乐 ,而 中 少 者 ,不 得 与 于 祭 。 数 与 祭 
而 君 有 庆 , 数 不 与 祭 而 君 有 让 。 数 有 庆 而 益 地 , 数 有 让 而 削 地 。”* 西 周 官学 中 的 学 生 要 担任 官 
职 时 ,也 要 考核 射 , 御 。《 汉 书 . 食 货 志 ) 写 道 :“ 丁 周 时 学 于 大 学 。 命 日 “ 造 士 '。 行 同 能 偶 则 
别 之 以 射 , 然 后 和 命 看 。”* 射 "的 标准 有 五 :一 是 * 白 和 撩 ”, 即 有 力 能 穿 透 靶 ;二 是 “ 参 连 ”, 三 箭 
连 发 有 速度 ;三 是 “ 刊 注 ”, 箭 羽 颈 高 而 头 低 ,锐利 易 透 ;四 是 “ 训 尺 ”, 后 君 一 尺 以 别 尊 卑 ;五 是 
“ 井 仪 ”四 箭 中 靶 呈 * 井 ? 字 ,都 准确 。 而 * 御 ”的 标准 也 有 五 : 一 是 “ 鸣 和 欧 ”, 车 行 时 铃 共鸣 
有 节奏 ;二 是 * 逐 水 曲 ”, 沿 水 边 曲 径 驱 驰 不 坠 颠 ;三 是 “过 君 表 ”, 车 过 辕门 不 碰 门 间 石 厂 ;四 
是 “ 舞 交 衢 ”, 交 叉 路 上 驰 驱 像 舞 蹈 ;五 是 “ 逐 禽 左 , 驱 车 赶 野兽 尽 向 左 逃 而 便于 君王 射 猫 。 
这 些 测量 体能 和 操作 技术 的 办 法 都 相当 规范 化 了 。 我 国 著名 测验 学 家 林 传 易 认 为 ,这 应 该 
是 操作 测验 的 最 早 锥 形 。 

汉代 推行 察 举 制 ,对 荐 举 或 征召 来 的 贤良 、 文 学 之 士 ,皇帝 常 亲自 “ 策 问 ”, 让 他 们 “ 奉 召 
试 文 ”。 西 汉文 帝 ( 公 元 前 165 年 ) 亲 自 策 问 。《 汉 书 ， 晃 错 传 ? 说 :对 策 者 百 余 人 , 唯 ( 显 ) 错 
为 高 第 ,由 是 迁 中 大 夫 。? 汉 武帝 也 曾 策 问 董仲舒 (公元 前 134 年 ) ,结果 董仲舒 写 了 “天 人 三 
策 " 作 答 。 汉 代 太 学 为 考核 学 生 学 业 , 尤 其 是 要 选拔 优秀 者 和 人 仕 ,就 要 进行 考试 。 方 法 除 背 
诵 经 书 外 ,最 重要 的 办 法 就 是 * 射 策 "。《 后 汉 书 ) 解 释 说 :“ 射 策 者 , 谓 为 难 问 疑义 , 书 之 于 策 ， 


i iii 第 一 章 绪 论 eo 


HK) BAEC ZB EZ ANE SE AKAA BE IAS I REZ AE” 
ae aea 这 里 ,所 考 的 已 不 是 动作 技艺 ,而 是 记忆 、 思 维 能 力 , 以 及 文化 知 

。 测 量 技术 有 了 很 大 改变 ,同时 也 很 重视 规范 化 。 这 为 科举 考试 葛 定 了 基础 。 隋 断 帝 大 
he 年 (公元 606 年 ) , 初 置 进士 科 , 策 试 诸 士 。 这 是 我 国 科举 考试 的 正式 起 点 。 科 举 考试 是 
典型 的 文字 测验 ,试题 逐渐 多 样 化 ,有 帖 经 . 墨 义 、 策 论 . 诗 赋 等 , 试 场 管理 和 评分 办 法 也 日 趋 
严格 和 规范 化 。 历 经 一 千 余 年 的 科举 考试 对 西方 近代 文官 考试 制度 的 建立 ,有 着 重要 的 影 
响 和 作用 。 因 此 ,当代 许多 西方 心理 测量 专著 在 列举 测验 发 展 史 的 重大 事件 时 ,总 是 把 中 国 
科举 考试 的 产生 作为 首要 事件 。 

再 次 ,我 国 古代 不 但 在 军事 技能 和 文化 知识 的 测量 上 作 了 许多 探讨 ,而 且 对 一 般 智 力 和 
人 格 特点 的 测量 也 有 探索 和 贡献 。 三 国 时 期 魏 国 人 刘 动 著 有 《人物 志 ) 一 书 ,他 奉行 "中庸 至 
德 ”的 颂 家 教义 ,对 于 人 的 形 质 、 人 性 以 及 志 业 的 “ 考 课 核实 " 作 了 深入 探究 。 他 的 所 谓 “ 考 课 
核实 ”, 实 质 上 就 是 要 遵循 内 部 心理 与 外 部 行为 相 统一 的 原则 ,从 人 的 体 貌 ,言语 ,行为 等 诸 
多 方面 人手 进行 观察 ,以 判定 其 “心志 ”的 大 小 ,从 而 再 将 其 归 入 圣贤 、 豪 杰 、 傲 荡 、 拘 束 等 不 
同类 别 。 他 还 注意 到 这 种 “ 考 课 ” 可 能 失真 ,一 方面 是 缘 于 观察 者 的 个 人 偏好 ; 男 一 方面 是 缘 
于 被 观察 者 的 表 里 不 一 ,从 而 提出 了 “ 八 观 与 五 视 ” 的 视察 方法 ,以 尽量 减少 误差 。 因 此 , 刘 
动 对 观察 法 的 研究 是 很 有 贡献 的 。20 世纪 30 年 代 , 美 国 曾 有 学 者 将 (人 物 志 ) 一 书 译 出 , 冠 
以 “人 类 能 力 研究 ”之 名 予以 出 版 ,可 见 其 地 位 不 可 小 视 。 

最 后 ,我 国民 间 还 有 不 少 实用 的 心理 测量 活动 与 方法 。 早 在 南北 朝 时 期 ,我 国 许多 地 区 
(尤其 是 江南 地 区 ) 就 广 为 流 行 “ 周 岁 试 儿 ” 活 动 ,以 及 七 巧 板 益 智 图 、 九 连环 游戏 等 。 周 岁 试 
儿 活动 撤 开 其 妄 加 预测 “ 贪 廉 "等 不 科学 的 方面 不 谈 ,应 该 说 对 婴 幼 儿 认 知 和 运动 控制 能 力 
的 测评 ,还 是 有 一 定 根据 和 价值 的 。 林 传 晶 认 为 , 它 是 近代 婴儿 发 展 诊断 测验 的 先导 。 至 于 
著名 的 七 巧 板 益 智 图 ,更 堪 称 现代 智力 测验 中 广泛 使 用 的 拼图 类 测验 的 始祖 ,与 人 的 发 散 性 
思维 密切 相关 ,能 较 好 地 测 查 知觉 整合 和 空间 想象 能 力 。 九 连环 游戏 是 另 一 种 中 国民 间 流 
传 的 益 智 游戏 ,其 设计 的 精巧 可 与 现代 魔方 媲美 ,是 比 现代 认 知 心理 学 中 著名 的 河内 塔 任务 
更 为 复杂 的 一 种 操作 性 解 题 任务 。 因 此 ,传人 西方 后 广 受 推崇 ,著名 心理 学 家 伍德 沃 斯 (R. 
S. Woodworth) 将 九 连环 游戏 称 为 “中 国 式 迷 津 ”, 七 巧 板 益 智 图 则 被 称 为 * 唐 图 ”。 


二 、 科 学 心理 测验 的 诞生 


古代 人 们 对 心理 测量 作 了 一 定 探索 ,但 心理 测验 是 心理 测量 的 一 种 ,是 对 行为 样本 客观 
而 标准 化 的 测量 ,是 一 种 更 为 科学 的 测量 活动 。 科 学 心理 测验 的 诞生 是 现代 的 事 , 是 现代 科 
学 心理 学 对 现代 社会 生活 的 一 项 重要 贡献 。 现 代 科 学 心理 测验 ,是 为 满足 现代 工业 生产 、 现 
代 经 济 和 社会 发 展 需要 ,在 现代 实验 自然 科学 推动 下 ,在 科学 的 心理 学 思想 指导 下 发 展 起 
来 的 。 

19 世纪 ,欧美 国家 对 智力 落后 者 和 精神 病人 开始 倡导 实行 人 道 主 义 , 反 对 对 其 冷落 、 嘲 
笑 ,更 主张 不 能 虐待 他 们 ,有 些 国家 还 建立 了 专门 的 收容 机 构 。 随 着 社会 日 益 关注 智力 有 问 
题 的 个 体 ,就 需要 某 些 统一 标准 来 对 其 进行 鉴定 与 分 类 ,首先 是 要 区 分 开 精 神 病人 与 智力 落 
后 者 。 法 国医 生 艾 斯 克 罗 尔 (E. Esquirol) 在 其 1838 年 出 版 的 著作 中 ,第 一 次 作出 了 精神 病 
与 智力 落后 的 明确 区 分 。 他 指出 ,从 正常 到 “最 严重 的 白痴 ”, 智 力 落后 有 许多 等 级 。 艾 斯 克 
罗 尔 也 探讨 了 区 分 这 些 等 级 的 方法 。 他 认为 ,个体 使 用 语言 的 能 力 是 衡量 人 的 智力 水 平 的 
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最 可 靠 的 标准 。 从 目前 来 看 ,可 以 认为 ,这 是 科学 而 很 有 见地 的 观点 。 另 一 位 法 国医 生 沈 干 
CE, Seguin) 的 贡献 也 很 重要 ,他 是 训练 智力 落后 个 体 的 先驱 。1837 年 ,他 建立 了 第 一 所 专 
门 教育 智力 落后 儿童 的 学 校 ,提出 了 许多 感觉 和 肌肉 训练 方法 ,集中 训练 智力 严重 落后 儿童 
的 感觉 辨别 和 运动 控制 能 力 。 他 所 创造 的 一 些 方法 ,如 “ 形 板 ”(form board) 法 , 即 要 求 个 体 
尽快 地 将 不 同形 状 的 木 块 插 和 人 相应 的 凹 槽 内 去 ,后 来 成 为 了 许多 操作 智力 测验 的 组 成 部 分 。 
这 些 对 智力 落后 者 的 分 类 和 训练 的 早期 关注 ,为 第 一 个 科学 的 标准 化 测验 , 即 比 内 一 西蒙 智 
力量 表 的 诞生 ,奠定 了 重要 的 基础 。 

一 般 来 说 ,19 世纪 早期 的 实验 心理 学 家 并 不 关心 个 体 差异 的 测量 ,他 们 研究 的 重点 是 
行为 中 的 共同 性 而 不 是 差异 性 。 在 相同 条 件 下 所 观测 到 的 不 同 个 体 的 不 同 反应 被 认为 是 一 
种 误差 ,从 而 采取 忽视 甚至 要 加 以 排斥 的 态度 。1879 年 , 冯 特 (W. Wundt) 在 莱比锡 大 学 建 
立 了 世界 上 第 一 个 心理 学 实验 室 。 当 时 ,实验 心理 学 家 大 多 研究 的 是 视觉 .听觉 和 其 他 感觉 
刺激 的 感受 性 与 简单 的 反应 时 ,局 限 在 较 低级 的 心理 过 程 中 。 但 是 ,实验 心理 学 要 求 严格 控 
制 实验 条 件 以 减少 测量 误差 和 尊重 与 强调 客观 性 原则 的 做 法 , 却 促进 了 标准 化 心理 测验 的 
PE. 

英国 生物 学 家 高 尔 顿 (F. Galton) 是 重视 个 体 差 异 和 倡导 心理 测量 运动 的 重要 人 物 。 出 
于 对 人 类 遗传 研究 的 兴趣 ,他 认识 到 若 想 了 解 遗传 对 行为 的 影响 , 则 必须 测量 近亲 或 远亲 的 
各 种 特质 。 为 此 ,他 督促 许多 教育 机 构 保存 对 学 生 进 行 系统 人 体 测 量 的 记录 。1884 年 ,他 
还 在 国际 博览 会 上 设立 了 人 体 测量 实验 室 ,测量 某 些 身体 属性 ,如 视听 党 敏锐 度 ` 肌 肉 力量 、 
反应 时 及 其 他 感觉 运动 机 能 。 他 亲自 设计 了 许多 简单 测验 工具 ,如 用 于 视觉 长 度 辨别 的 高 
尔 顿 棒 , 用 于 确定 听觉 最 高 音频 的 高 尔 顿 笛 , 用 于 测量 动 觉 辨 别 的 刻度 贴 码 系 列 等 ,至 今 仍 
在 以 原型 或 修订 型 而 继续 使 用 。 高 尔 顿 受到 洛克 经 验 论 哲学 的 影响 ,认为 感觉 辨别 测验 可 
用 作 测 量 个 体 智力 的 工具 。 另 外 ,他 还 是 应 用 等 级 评定 量 表 、 问 卷 法 及 自由 联想 技术 的 先 
驱 。 并 且 , 他 还 发 展 了 分 析 个 体 差 异 资料 的 统计 方法 ,在 数理 统计 应 用 方面 起 了 极 大 的 推动 
作用 。 

比 高 尔 顿 略 晚 的 美国 心理 学 家 卡特 尔 (J. M. Cattell) 是 早期 倡导 心理 测量 运动 的 又 一 个 
重要 人 物 。 他 是 冯 特 的 学 生 ,完成 了 反应 时 个 别 差异 研究 的 博士 论文 ,将 刚刚 建立 的 实验 心 
理学 和 新 兴 的 测验 运动 结合 了 起 来 。1890 年 ,他 在 (心理) 杂志 上 发 表 了 “心理 测验 与 测量 ” 
一 文 ,使 * 心 理 测验 ”一 词 首次 出 现在 心理 学 专业 文献 中 。 他 写 道 : “心理 学 若 不 立根 于 实验 
与 测量 之 上 , 则 绝 不 能 达到 如 自然 科学 的 准确 "又 说 :如 果 我 们 规定 异 时 异地 的 结果 可 以 
进行 比较 ,那么 测验 的 实用 价值 就 可 以 成 倍增 加 。? 他 在 学 校 里 每 年 都 用 个 别 实施 的 测验 来 
对 大 学 生 进 行 测量 ,包括 测量 肌肉 力量 .运动 速度 ,疼痛 感受 性 .视听 敏感 性 ,重量 辨别 力 、 反 
应 时 、` 记 忆 力 等 。 他 跟 高 尔 顿 相 类 似 , 认 为 智力 机 能 的 测量 可 以 通过 感觉 辨别 力 ` 反 应 时 等 
测验 来 获得 。 但 是 ,事实 的 结果 却 与 他 的 观点 不 同 。 人 们 分 析 了 他 的 测验 结果 资料 ,发 现 个 
体 在 不 同 测验 上 的 成 绩 不 相 一 致 ,而 且 测 验 成 绩 跟 教 师 独 立 评定 的 智力 水 平 或 学 业 成 绩 没 
有 多 大 关系 。 

从 测验 产生 发 展 史 角 度 来 看 ,如 果 19 世纪 80 年 代 是 “高 尔 顿 的 十 年 ”,90 年 代 是 “卡特 
尔 的 十 年 ”, 那 么 进入 20 世纪 后 头 十 年 就 属于 比 内 (A. Binet) 了 。 法 国 心理 学 家 比 内 多 年 积 
极 从 事 智力 测量 的 研究 ,使 用 过 包括 测量 头盖骨 、 手 相等 多 种 方法 。1904 年 ,法 国 公共 教育 
部 任命 一 个 委员 会 , 比 内 是 委员 之 一 ,专门 研究 对 智力 落后 儿童 的 教育 。1905 年 ,为 实现 这 
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个 委员 会 的 目标 , 比 内 与 其 助手 西蒙 合作 ,成 功 编制 了 世界 上 第 一 个 正式 的 智力 测验 工具 ， 
即 比 内 一 西蒙 智力 量 表 。 这 个 量 表 包括 30 个 项 目 , 由 易 到 难 排列 。 对 50 名 3 一 11 岁 正常 
儿童 ,以 及 一 些 智力 落后 儿童 和 成 人 进行 过 试 测 , 用 实证 办 法 确定 了 项 目的 难度 水 平 。 项 目 
内 容 包括 各 种 机 能 ,但 特别 强调 判断 、 推 理 、 理 解 , 跟 当时 大 多 数 测验 比较 ,言语 比例 要 大 得 
多 。 但 该 量 表 还 是 尝试 性 工具 , 尚 无 客观 方法 来 表示 测验 的 总 分 。 

1908 年 , 比 内 一 西蒙 智力 量 表 第 2 版 出 版 ,增删 了 一 些 项 目 ,特别 是 对 约 300 名 3 一 13 
岁 正常 儿童 进行 了 测试 ,将 所 有 项 目 按 年 龄 水 平 进行 了 分 组 ,即将 有 80% ~90 AY 3 岁 正常 
儿童 都 能 通过 的 项 目 , 全 放 入 3 岁 组 ;将 有 80% ~90% AY 4 岁 正常 儿童 都 能 通过 的 项 目 ,全 
放 和 4 岁 组 ;其 余 以 此 类 推 , 直 到 13 岁 水 平 组 。 这 样 ,儿童 在 整个 测验 上 的 分 数 就 可 以 表示 
为 智力 水 平 (又 称 为 “智力 年 龄 ”), 即 相当 于 成 绩 同 他 一 样 好 的 正常 儿童 的 年 龄 。 比 内 一 西 
蒙 智力 量 表 受 到 世界 各 国 心理 学 家 的 广泛 关注 ,很 快 就 有 了 多 种 翻译 本 与 修订 本 。1911 
年 , 比 内 一 西蒙 智力 量 表 第 3 版 出 版 ,改变 了 一 些 原 有 项 目的 内 容 和 顺序 ,并 添加 了 成 人 组 
题目 ,将 被 试 对 象 延伸 到 了 成 人 阶段 。 

比 内 一 西蒙 智力 量 表 的 编制 发 行 ,标志 着 人 类 历史 上 科学 的 标准 化 心理 测验 的 诞生 。 
其 贡献 如 下 : 第 一 ,采用 试验 性 测试 办 法 ,得 到 了 项 目 ( 以 及 测验 ) 的 经 实证 检验 的 难度 ;第 
二 ,在 代表 性 被 试 样本 基础 上 , 求 取 了 常 模 ( 这 里 是 年 龄 常 模 ), 这 更 是 人 类 历史 上 所 没有 过 
的 轩 新 科学 概念 ;第 三 ,在 智力 水 平 的 测 查 上 ,不 再 局 限于 只 测 感觉 .知觉 等 低级 心理 过 程 ， 
而 是 强调 突出 对 判断 、 推 理 和 理解 能 力 以 及 语言 能 力 的 测 查 ,径直 抓 住 人 类 所 特有 的 高 级 心 
理 过 程 。 因 此 , 比 内 一 西蒙 智力 量 表 使 科学 心理 测验 的 基本 要 素 得 以 确立 ,科学 的 测验 开发 
编制 过 程 就 有 了 范例 。 以 此 为 典范 ,20 世纪 中 期 大 量 标准 化 的 智力 、 人 格 和 学 业 成 绩 测 验 
纷纷 涌现 ,心理 测量 也 作为 现代 心理 学 的 独立 分 支 学 科 得 以 建立 。 


三 、 必 理 测验 在 我 国 的 发 展 历史 


现代 心理 测验 在 我 国 的 传播 与 发 展 经 历 了 一 个 曲折 的 过 程 。20 世纪 初 ,科学 心理 测验 
即 已 传人 我 国 。1916 年 , 攀 炳 清 将 比 内 一 西蒙 智力 量 表 介绍 到 我 国 。1918 年 , 俞 子 夷 仿效 
桑 代 克 编制 了 “小 学 生 语 文 毛笔 书法 量 表 ”。1920 年 , 雇 世 承 和 陈 乱 琴 在 南京 高 等 师范 学 校 
开设 测验 课程 ,次 年 又 合作 出 版 了 《心理 测验 法 ) 一 书 。1922 年 , 比 内 一 西蒙 智力 量 表 由 贾 
培 杰 译 成 中 文 , 命 名 为 “儿童 心智 发 达 测量 法 ”。 应 该 说 ,我 国 当 时 的 测验 运动 与 国外 大 体 保 
持 着 同步 的 发 展 。 

1922 年 ,中 华 教育 改进 社 聘请 美国 测验 学 家 麦 柯 尔 等 来 华 讲学 并 主持 测验 编制 , 共 编 
制 测验 40 多 种 。 麦 柯 尔 对 此 评价 很 高 .认为 达到 美国 当时 水 平 有 的 还 优 于 美国 。1924 年 ， 
陆 志 韦 发 表 了 修订 的 比 内 一 西蒙 智力 量 表 。 同 时 期 .还 有 廖 世 承 的 “团体 智力 测验 ”、 陈 稚 琴 
的 “图 形 智力 测验 ”、 刘 洪恩 的 “ 非 文 字 智力 测验 "等 。 此 外 ,在 教育 测验 方面 ,合子 夷 、 陈 乱 琴 
等 编制 了 小 学 生 各 种 测验 , 廖 世 承 、 艾 伟 等 编制 了 多 种 中 学 学 科 测验 。 在 个 性 测验 方面 , 肖 
孝 嵘 修订 了 伍德 沃 斯 个 人 资料 记录 ,并 制定 了 9 一 15 岁 年 龄 常 模 。 从 五 四 运动 前 后 到 1928 
年 ,我 国 可 以 说 兴起 过 一 次 测验 编制 的 热潮 。 但 由 于 测验 运动 发 展 初期 理论 研究 薄弱 ,技术 
上 也 很 不 成 熟 ,特别 是 有 人 对 测验 寄予 过 高 期 望 ,加 上 又 有 人 赶 时 瞩 粗 烽 编制 与 滥用 测验 ， 
致使 社会 产生 反感 。 从 1929 年 开始 ,测验 运动 一 跨 不 振 。 

1931 年 ,我 国学 者 反思 经 验 教训 ,在 南京 成 立 了 中 国 测验 学 会 。1932 年 ,出 版 了 会 刊 
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范围 逐渐 扩大 ,由 小 学 至 中 学 、 大 学 ,幼儿 园 , 并 向 实业 界 延 伸 。1933 一 1937 年 ,涌现 出 大 量 
的 心理 测验 ,如 黄 觉 民 的 幼 童 智力 测验 、 肖 孝 嵘 的 订正 古 氏 画 人 测验 和 墨 跋 测验 、 艾 伟 的 订 
正 宾 特 纳 智慧 测验 等 。1936 年 , 陆 志 韦 和 吴 天 敏 对 比 内 一 西蒙 智力 量 表 进行 了 再 次 修订 。 
可 以 说 ,在 这 段 时 期 测验 工作 呈现 了 又 一 次 的 兴盛 。 然 而 ,抗日 战争 爆发 后 ,一 些 学 者 虽然 
还 在 艰苦 的 条 件 下 坚持 工作 ,编制 了 某 些 教育 测验 和 人 事 选 拔 测验 ,但 是 总 的 来 说 仍 处 于 停 
HRE. 

从 1949 年 到 1978 年 的 近 30 年 间 , 心 理 测验 在 我 国内 地 长 期 被 视 为 禁区 。 这 是 因为 ， 
1936 年 苏联 在 批判 “儿童 学 "的 同时 ,全 盘 否 定 和 强行 禁止 心理 测验 。 新 中 国 成 立 后 ,在 “全 
面向 苏联 学 习 ” 的 背景 下 ,心理 测验 被 视 为 唯心 的 .反动 的 。1966 年 “文化 大 革命 ”中 ,整个 
心理 学 界 都 被 打 成 了 “资产 阶级 伪 科 学 ”, 测 验 的 研究 、 使 用 和 人 员 培 养 在 我 国内 地 全 部 停 
止 ,教训 是 深刻 的 。 党 的 十 一 届 三 中 全 会 后 ,人 们 重新 认识 到 心理 测验 的 作用 和 意义 ,心理 
测验 工作 在 我 国内 地 逐步 恢复 并 进入 良好 的 发 展 新 时 期 。1979 年 , 林 传 占 、 吴 天 敏和 张 厚 
祭 等 人 在 武汉 举办 了 第 一 个 全 国 性 的 心理 测验 培训 班 。 这 之 后 ,我 国学 者 积极 修订 国外 著 
名 的 心理 测验 ,如 韦 氏 智力 量 表 、 瑞 文 推理 测验 ,明尼苏达 多 相 人 格调 查 表 、 卡 特 尔 16 种 人 
格 因素 问卷 . 艾 森 克 人 格 问 卷 、.H 一 R 神经 心理 成 套 测验 等 。 同 时 ,又 逐步 开展 了 编制 适合 
我 国文 化 特点 和 国情 的 测验 工作 。 我 国内 地 学 者 修订 与 编制 的 心理 测验 已 达 一 百 儿 十 种 ， 
内 容 已 覆盖 到 能 力 测验 .人 格 测验 ,以 及 心理 评定 量 表 等 各 个 方面 。 另 外 ,还 有 一 批 学 者 积 
极 参加 学 业 成 绩 考试 .英语 水 平 考试 (对 外 ) 汉 语 水 平 考 试 .公务员 考试 、 职 业 资 格 证 书 考试 
等 的 标准 化 工作 ,促进 了 考试 事业 的 发 展 与 科学 化 水 平 的 提高 。 与 此 同时 ,对 当代 心理 计量 
学 理论 与 技术 的 引入 及 研究 也 在 积极 进行 ,经 典 测验 理论 ,项 目 反应 理论 和 概 化 理论 等 都 得 
到 了 重视 。 计 算 机 技术 也 被 认真 引入 测验 工作 中 。 现 在 ,心理 测验 在 我 国 已 进入 心理 学 界 、 
教育 界 、 医 疗 卫 生 界 、 企 业界 、 人 事 部 门 、 司 法 部 门 、 军 事 部 门 等 许多 应 用 领域 ,发 挥 出 了 其 应 
有 的 重要 作用 。 我 国 心理 测验 正 站 在 新 的 基点 之 上 ,努力 朝 国际 先进 水 平 迈进 。 


四 、 各 种 类 型 心理 测验 的 发 展 


(一 ) 能 力 测验 的 发 展 

按照 比 内 一 西蒙 智力 量 表 开辟 的 编制 心理 测验 的 道路 ,在 20 世纪 前 半期 ,多 种 类 型 的 
心理 测验 得 以 发 展 起 来 。 首 先 发 展 起 来 的 是 智力 测验 。1916 年 ,美国 斯 坦 福 大 学 的 推 重 
(L. M. Terman) 及 其 同事 ,修订 了 比 内 一 西蒙 智力 量 表 , 推 出 了 斯 坦 福 一 比 内 智力 量 表 。 它 
在 性 能 方面 比比 内 一 西蒙 的 原 智力 量 表 更 完善 ,适应 范围 更 广 。 该 量 表 还 首次 采用 了 “智力 
商 数 ”(Intelligence Quotient. IQ) , 即 比率 智商 (智力 年 龄 与 实际 年 龄 的 比 ) ,来 描述 个 体 的 智 
力 水 平 。 从 此 ,智商 成 为 一 个 广 为 流 传 的 概念 。 

比 内 一 西蒙 智力 量 表 和 斯 坦 福 一 比 内 智力 量 表 都 是 个 别 施 测 的 测验 ,这 两 个 测验 的 项 
目 都 要 求 被 试 口头 反应 或 操作 器 具 ,一 些 项 目 还 规定 了 作答 反应 时 间 。 实 质 上 ,这 是 一 种 临 
床 工具 。1917 年 ,美国 参加 第 一 次 世界 大 战 .部 队 需 要 对 近 200 万 新 兵 按 其 智力 特点 分 类 ， 
以 便 分 配 到 不 同 兵 种 、 军 官 训练 营 或 确认 为 不 宜 服役 的 对 象 ,这 就 要 求 快速 而 简便 地 进行 。 
个 别 施 测 的 测验 已 无 法 适应 这 种 需求 。 于 是 ,美国 心理 学 家 就 开始 研究 开发 团体 测验 ,编制 
了 “陆军 甲 种 测验 ”和 “陆军 乙 种 测验 ”前 者 为 文字 测验 ,后 者 为 非 文 字 测 验 。 两 者 的 一 个 突 
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出 的 共同 特点 ,就 是 首次 采用 了 选择 题 等 “客观 性 ?试题 。 战 后 ,这 两 个 军队 测验 转 为 民用 。 
由 于 团体 测验 所 测 被 试 规模 大 ,使 用 十 分 简单 的 指导 语 和 施 测 程序 , 主 试 又 不 必 接 受 很 多 训 
练 ,因而 团体 测验 被 大 量 编制 ,广泛 应 用 于 学 校 \ 企 业 乃 至 因 犯 等 特殊 人 群 中 ,这 促进 了 20 
世纪 二 三 十 年 代 心 理 测验 的 大 发 展 。 但 由 于 这 些 测验 大 多 技术 粗糙 ,结果 应 用 又 不 严谨 , 引 
起 了 社会 各 方 的 强烈 批评 。 而 且 , 当 测验 不 能 符合 本 来 就 没有 理由 达到 的 期 望 时 ,人 们 又 常 
易 产 生 怀疑 甚至 敌视 一 切 测验 的 情绪 ,从 而 会 阻碍 测验 的 正常 发 展 。 粗 制 滥 造 和 误 用 滥用 
测验 会 严重 损害 测验 事业 自身 ,这 是 应 该 吸取 的 一 个 重要 历史 教训 。 

自 比 内 一 西蒙 智力 量 表 诞生 以 来 ,20 世纪 初期 设计 的 智力 测验 ,主要 测量 的 是 言语 能 
力 ,在 有 限 程 度 上 ,也 测量 处 理 数字 关系 和 其 他 抽象 符号 关系 的 能 力 。 后 来 ,人 们 逐渐 认识 
到 ,“ 智 力 测验 "有 点 用 词 不 当 , 因 为 事实 上 只 测 到 智力 的 某 些 方面 ,最 好 还 是 按照 这 些 测验 
能 够 获得 的 信息 类 型 ,使 用 更 为 确切 的 名 称 。 于 是 ,一 些 20 世纪 20 年 代 原 被 称 为 智力 测验 
的 测验 ,后 来 就 被 称 为 “学 业 能 力 倾 向 测验 ”。 因 为 它们 所 测 的 , 正 是 学 业 所 要 求 和 培养 的 能 
力 。 当 然 , 社 会 不 仅 要 求 测 查 学 业 能 力 倾向 ,还 要 求 测 查 其 他 方面 的 能 力 倾向 。 这 样 ,在 20 
世纪 二 三 十 年 代 就 开发 出 了 多 种 特殊 能 力 倾向 测验 ,以 应 用 于 职业 咨询 及 工业 与 军事 等 部 
门 的 人 员 选 拔 与 分 类 ,如 机 械 、 文 书 、 音 乐 . 美 术 等 特殊 能 力 倾向 测验 。 随 着 现代 统计 技术 的 
发 展 ,因素 分 析 方 法 被 引进 测验 编制 过 程 中 。 其 中 一 个 主要 的 实际 成 果 , 就 是 逐渐 开发 出 了 
“多 重 能 力 倾向 成 套 测 验 ”。 这 种 测验 一 般 不 提供 总 分 或 IQ 值 ,而 是 分 别 得 出 各 种 能 力 特质 
的 分 数 ,如 言语 理解 .数字 能 力 倾向 、 空 间 视 觉 、 算 术 推 理 . 知 觉 速度 等 。 这 种 测验 要 进行 个 
体内 部 的 比较 ,分 析 被 试 内 部 的 能 力 结构 特征 。 多 重 能 力 倾向 成 套 测验 的 较 新 发 展 ,出 现在 
20 世纪 80 年 代 之 后 。 在 智力 理论 研究 和 认 知 心理 学 发 展 的 推动 下 ,传统 比 内 智力 量 表 的 整 
体 综合 评估 方法 与 多 重 能 力 倾向 成 套 测 验 的 具体 灵活 评估 方法 相互 结合 ,出 现 了 更 新 的 智 
力 与 能 力 测验 的 发 展 趋势 ,其 典型 代表 就 是 斯 坦 福 一 比 内 智力 量 表 第 4 版 。 

(二 ) 人 格 测验 的 发 展 

心理 测验 的 另 一 领域 涉及 情感 行为 或 非 智 力行 为 , 适 于 这 一 目的 的 测验 一 般 称 为 人 格 
测验 。 虽 然 广义 的 “人 格 "概念 可 以 包含 智力 特质 和 非 智力 特质 在 内 ,但 是 心理 测量 学 术语 
中 的 “人 格 测验 ”一 词 ,往往 表示 测量 性 格 、 气 质 、 情 绪 状 态 、 人 际 关系 动机、 兴趣 、 态 度 等 特 
性 ,并 不 把 能 力 测量 包含 在 内 。 

人 格 测验 的 第 一 种 方法 是 自 陈 量 表 法 。 早 期 的 人 格 测验 起 源 于 对 精神 病人 的 关爱 。 
1892 年 ,人 格 测验 的 先驱 克 雷 佩 林 (E. Kraepelin) 对 精神 病 患 者 实施 自由 联想 测验 。1894 
年 , 男 一 位 学 者 萨 默 (Sommer) 使 用 自由 联想 测验 来 区 别 不 同形 式 的 心理 障碍 。 男 外 ,高 尔 
顿 \ 皮 尔 逊 和 卡特 尔 等 人 在 发 展 标准 化 问卷 和 评定 量 表 技术 方面 ,也 做 出 了 不 少 贡献 ,也 对 
人 格 测验 发 展 有 积极 影响 。 然 而 ,人 格 测验 的 原型 即 自 陈 量 表 , 却 是 伍德 沃 斯 在 第 一 次 世界 
大 战 期 间 编制 的 “个 人 资料 调查 表 "。 这 是 一 个 用 于 鉴别 不 宜 服役 的 精神 病 患者 的 初步 甄别 
工具 ,包括 一 些 有 关 常 见 心理 病理 学 症状 的 问题 ,由 被 试 自 陈 作答 ,然后 计算 症状 数目 得 出 
总 分 。 这 个 调查 表 后 来 成 为 大 多 数 情绪 适应 问卷 的 原型 。 遵 照 这 个 调查 表 所 体现 的 自 陈 量 
表 法 ,人 们 逐渐 开发 出 许多 学 校 、 家 庭 ,职业 适应 测验 ,以 及 态度 测验 等 。 到 第 二 次 世界 大 战 
期 间 , 自 陈 量 表 法 编制 技术 已 经 成 为 人 格 测验 一 种 最 主要 的 编制 开发 技术 。 像 现今 广 为 流 
行 的 “明尼苏达 多 相 人 格调 查 表 (MMPD ”等 ,采用 的 就 是 这 种 方法 的 技术 。 

人 格 测验 的 第 二 种 方法 是 投射 测验 法 。 在 这 种 方法 中 ,给 被 试 一 种 相对 无 结构 的 刺激 ， 
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让 被 试 自由 作答 。 其 假设 是 被 试 会 把 自己 的 内 心愿 望 ,情感 及 行为 模式 ,反映 到 对 测验 任务 
的 作答 中 。 投 射 测验 法 会 掩盖 测量 目的 ,减少 被 试 故 意 制造 满意 印象 的 可 能 。 自 由 联想 技 
术 是 最 早 的 投射 测验 法 技术 ,最 典型 的 是 罗 夏 墨迹 测验 。 

各 类 人 格 测验 都 存在 某 种 理论 和 实践 上 的 问题 。 但 总 的 说 来 ,人 格 测验 在 计量 技术 上 
落后 于 能 力 测 验 , 这 是 由 人 格 本 身 的 特殊 复杂 性 所 决定 的 。 

(三 ) 心理 评定 量 表 的 发 展 

20 世纪 50 年 代 以 来 ,心理 评定 量 表 有 了 很 大 的 发 展 。 心 理 评定 量 表 是 用 来 量化 观察 中 
所 得 印象 的 一 种 心理 测量 工具 。 它 以 自然 观察 为 基础 ,但 不 是 现场 观察 的 直接 记录 ,而 是 较 
长 时 间 的 纵向 观察 印象 的 综合 ,因而 包含 了 观察 者 的 解释 与 评价 过 程 在 内 。 心 理 评定 根据 
现代 医学 的 生物 一 心理 一 社会 医学 模式 ,其 评定 不 仅 包括 个 体 的 心理 方面 ,还 包括 个 体 的 身 
体 、 环 境 和 社会 关系 等 各 个 方面 。 进 入 七 十 年 代 , 评 定量 表 经 过 了 半 个 多 世纪 的 发 展 ,编制 
方法 不 断 完善 ,种 类 迅速 增加 ,在 各 个 领域 应 用 甚 广 ,这 标志 着 心理 评定 量 表 开 始 进入 成 熟 
期 。 目 前 ,心理 评定 量 表 已 在 心理 卫生 科学 研究 和 临床 实践 中 发 挥 着 重要 的 作用 ,并 在 心理 
卫生 评估 工作 中 逐渐 占据 重要 地 位 。 

由 于 心理 评定 量 表 能 够 快捷 、 灵 活 而 又 相当 可 观 地 提供 大 量 信息 ,当前 已 成 为 临床 工作 
中 的 常用 工具 。 


第 四 节 ”如 何 正确 对 待 和 使 用 心理 测验 


心理 测验 发 展 过 程 的 历史 经 验 告诉 我 们 ,必须 正确 对 待 和 使 用 心理 测验 。 不 但 心理 学 
专业 工作 者 应 该 正确 对 待 心理 测验 ,心理 测验 的 所 有 使 用 者 ,如 学 校 , 企 业 、 人 事 管理 部 门 、 
司法 当局 ,以 及 社会 大 众 和 政府 ,都 要 正确 对 待 心理 测验 。 既 不 能 认为 “测验 万 能 ”, 迷 信和 
神化 测验 ,比如 把 测验 分 数 绝对 化 ,无 限 抬 高 智商 ( 即 IQ) 的 地 位 等 ,也 不 能 “全 盘 和 否定 ”测验 
的 作用 ,认为 "心理 测验 不 但 无 用 ,而 且 纯粹 是 祸害 ,甚至 采用 行政 的 办 法 来 全 盘 禁 止 测验 ， 
那 都 是 完全 错误 的 。 科 学 技术 领域 中 的 问题 ,只 有 通过 发 展 科学 研究 和 提倡 实践 检验 的 办 
法 来 解决 。 对 心理 测验 应 有 如 下 正确 看 法 。 

第 一 ,要 认识 到 心理 测验 是 心理 学 重要 的 研究 方法 ,是 决策 的 辅助 工具 。 人 的 许多 高 级 
心理 过 程 , 目 前 尚 无 法 在 实验 室 进 行 研究 ,但 借助 其 外 部 行为 表现 进行 客观 的 测量 , 却 是 实 
际 可 行 的 。 所 以 ,心理 测验 的 出 现 是 心理 科学 发 展 史 上 的 一 大 进步 。 人 的 心理 有 个 别 差异 ， 
升学 .就 业 、 招 聘 、 晋 级 时 要 加 以 确认 。 许 多 传统 的 方法 ,如 初步 面谈 、 简 单 考试 .群众 推荐 等 
都 不 是 很 可 靠 ,科学 性 较 差 ,而 精心 设计 的 心理 测验 却 有 较 高 的 信 度 和 效 度 。 

第 二 ,要 认识 到 心理 测验 作为 研究 方法 和 测量 工具 尚 不 完善 。 人 的 心理 特性 与 结构 是 
世界 上 最 复杂 的 现象 ,心理 学 对 其 研究 还 是 相当 初步 的 。 比 如 ,智力 和 人 格 的 定义 ,至 今 都 
尚未 取得 一 个 统一 公认 的 意见 。 所 以 ,心理 测验 的 理论 基础 还 很 不 扎实 ,有 待 于 科学 心理 学 
的 发 展 来 予以 加 强 。 另 外 ,内 部 心理 特性 与 外 部 行为 表现 间 并 不 存在 机 械 的 对 应 关系 , 主 试 
和 被 试 又 都 是 具有 能 动 性 的 主体 ,这 就 对 测量 技术 提出 了 很 高 的 要 求 。 当 前 ,心理 测量 技术 
的 发 展 也 仅 处 于 初步 发 展 阶段 。 因 此 ,我们 对 心理 测验 的 量化 结果 就 要 持 十 分 小 心 谨慎 的 
态度 ,尤其 在 据 此 作 推 断 和 预测 时 ,更 应 慎之 又 慎 。 但 是 ,任何 工具 都 是 在 使 用 中 不 断 发 展 
和 完善 的 ,不 能 要 求 心 理 测验 一 诞生 就 十 全 十 美 。 
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事实 上 ,对 心理 测验 的 大 多 数 批评 ,并 不 是 针对 测验 本 身 的 内 在 特性 ,而 是 针对 不 合格 
使 用 者 的 滥用 和 误 用 。 心 理 测验 结果 使 用 者 之 所 以 会 作出 滥用 和 误 用 ,有 如 下 原因 。 

第 一 ,对 现实 生活 问题 的 解决 ,心理 测验 结果 使 用 者 常 希望 有 捷径 ,能 采用 一 个 简单 步 
又 就 “ 按 规则 “一锤定音”, 绝对 化 地 予以 解决 。 一 些 管理 工作 者 迫 于 工作 任务 的 压力 ,不 愿 
从 复杂 的 现实 生活 出 发 ,如 实地 将 测验 资料 只 作为 辅助 工具 ,来 搞 好 科学 的 决策 ,而 是 想 简 
单 地 依赖 心理 测验 。 

第 二 ,心理 测验 结果 使 用 者 的 测验 知识 不 足 ,他 们 不 知道 具体 使 用 的 这 个 测验 实际 上 到 
底 测 了 什么 ,能够 作出 解释 与 推论 的 范围 到 底 有 多 大 ,测量 误差 状况 又 到 底 如 何等 。 

因此 ,要 避免 心理 测验 的 滥用 和 误 用 ,主持 和 实施 测验 的 专业 人 员 就 一 定 要 端正 态度 ， 
并 切实 提高 测量 学 的 科学 素养 ;要 认真 弄 清 并 耐心 解释 测验 实际 上 能 测 什么 ,对 某 些 过 分 的 
期 望 不 要 迎合 ,而 要 实事 求 是 地 予以 澄清 ;要 说 明 测 验 分 数 的 含义 ,说 明 测 验 的 信 度 和 效 
度 等 。 

如 此 看 来 ,要 搞 好 测验 工作 ,就 要 有 合格 的 主 试 。 合 格 的 主 试 是 做 好 测验 工作 的 关键 所 
在 。 只 有 有 了 合格 的 主 试 , 才 有 可 能 正确 地 选择 测验 ,符合 要 求 地 实施 与 评分 ,科学 地 解释 
测验 分 数 。 选 用 测验 不 能 像 选 购 日 用 品 那么 简单 , 主 试 应 该 根据 要 解决 的 问题 来 选用 合适 
的 测验 。 主 试 应 该 对 拟 选用 测验 的 信 度 、 效 度 、 常 模 等 有 足够 的 了 解 ,分 析 测 验 对 特定 目的 
的 适合 性 ,评估 测验 的 性 能 优 劣 等 。 显 然 , 主 试 若 没 有 足够 的 心理 学 素养 和 测量 学 训练 , 则 
是 不 可 能 完成 这 一 任务 的 。 测 验 的 实施 应 该 符合 标准 化 的 应 有 要 求 。 无 论 是 环境 条 件 的 控 
制 . 施 测 步骤 与 方法 的 掌握 ,还 是 指导 语 的 运用 与 现场 问题 的 处 理 , 都 应 严格 符合 标准 化 的 
要 求 , 否 则 所 得 测验 结果 就 会 失去 应 有 的 价值 。 至 于 评分 应 该 正确 ,其 必要 性 自 不 待 言 。 另 
外 ,要 能 对 测验 分 数 作 出 科学 解释 ,只 有 详细 参照 测验 的 信 效 度 资料 ,真正 弄 清 测验 实际 上 
在 测 什 么 ,切实 掌握 测验 过 程 中 被 试 的 表现 ,并 认真 理解 常 模 资 料 或 等 级 标准 ,才能 真正 做 
到 。 然 而 ,所 有 这 一 切 , 都 要 求 主 试 有 良好 的 心理 学 和 测量 学 的 素养 与 训练 。 

主 试 不 仅 应 该 有 较 强 的 专业 能 力 ,而 且 还 应 该 有 良好 的 职业 道德 。 主 试 应 该 明确 认识 
到 自己 承担 的 重要 社会 责任 ,并 努力 严肃 而 切实 地 履行 。 应 该 保证 以 专业 的 要 求 和 社会 的 
需求 来 使 用 心理 测验 ,不 得 滥用 和 单纯 追求 经 济 利益 。 在 介绍 测验 效能 与 测验 结果 时 ,必须 
提供 真实 和 准确 的 信息 ,避免 感情 用 事 或 虚假 地 断言 与 曲解 。 要 尊重 被 试 的 人 格 和 合法 权 
益 , 对 测量 中 获得 的 个 人 信息 要 加 以 保密 ,只 有 在 对 个 人 或 社会 有 可 能 造成 危害 时 ,才能 将 
其 中 某 些 东西 告知 有 关 方 面 。 另 外 ,也 要 以 正确 的 方式 将 测验 结果 向 被 试 或 有 关 人 员 报 告 ， 
并 提供 有 益 的 帮助 与 建议 。 

合格 的 主 试 不 但 是 做 好 测验 具体 工作 的 关键 因素 ,而 且 是 避免 测验 滥用 、 维 护 测验 良好 
社会 声誉 .保证 测验 事业 健康 发 展 的 重要 条 件 。 因 此 ,中 国 心理 学 会 2015 年 在 (心理 测验 管 
理 条 例 见 本 书 附录 ) 中 对 测验 使 用 人 员 的 认定 作出 了 专门 规定 ,应 该 坚决 地 予以 贯彻 执 
行 。 行 业 自 律 是 保障 社会 公共 服务 质量 的 主要 条 件 。 

要 防止 心理 测验 的 滥用 和 误 用 ,使 其 能 正常 地 发 挥 出 应 有 功能 ,还 有 一 个 重要 条 件 就 是 
要 切实 对 测验 内 容 保 密 。 很 显然 ,如 果 一 个 人 熟 记 了 色盲 测验 的 正确 答案 ,即使 他 是 全 色盲 
也 无 法 甄别 出 来 。 若 心理 测验 内 容 泄露 在 社会 公众 之 中 , 则 测验 效 度 就 会 失去 保障 。2015 
年 ,中 国 心理 学 会 (心理 测验 管理 条 例 } 规 定 :心理 测验 一 定 要 控制 使 用 并 妥善 保管 “具有 
测验 使 用 资格 者 ,可 凭 测验 使 用 资格 认定 书 购买 和 使 用 相应 的 心理 测验 器 材 , 并 要 负责 对 测 
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验 器 材 的 妥善 保管 ”为 保证 测验 的 科学 性 与 实用 价值 ,标准 化 测验 的 内 容 与 器 材 不 得 在 各 
类 非 专 业 刊物 上 发 表 。” 

总 之 ,测验 工作 者 都 有 义务 维护 心理 测验 的 有 效 性 , 凡 规 定 不 宜 公 开 的 心理 测验 内 容 、 
器 材 、 评 分 标准 以 及 常 模 等 , 均 应 保密 。 


本 章 概述 主要 阐述 了 三 个 问题 ; 一 是 什么 是 测量 ;二 是 什么 是 心理 测量 ;三 是 什么 是 心 
理 测 验 。 这 三 个 问题 的 关系 是 先 大 后 小 ,最 后 的 落脚 点 是 心理 测验 。 心 理 测验 是 整个 经 典 
测验 理论 的 核心 概念 ,主要 包括 三 个 要 素 : 行为 样本 (和 常 模 )、 客 观 化 (四 度 ) 和 标准 化 (四 
化 )。 根 据 心理 测验 的 概念 ,可 以 构建 出 整个 经 典 测验 理论 的 框架 : 1 十 4 十 4。 本 章 在 阐述 
心理 测验 的 概念 之 后 ,对 心理 测验 的 分 类 与 功能 作 了 介绍 ,并 阐述 了 心理 测验 的 历史 沿革 与 
发 展 。 在 总 结 历史 经 验 的 基础 上 ,本 章 还 指出 了 如 何 正确 对 待 和 使 用 心理 测验 ,特别 强调 了 
要 防止 滥用 和 误 用 心理 测验 ,以 及 测验 专业 工作 者 和 使 用 人 员 的 应 有 的 业务 和 职业 道德 要 
求 。 本 章 的 重点 是 理解 心理 测验 的 三 个 要 素 , 难 点 是 掌握 测量 量 纲 的 不 同 分 类 。 本 章 的 中 
心 概念 是 “心理 测验 ”。 


一 、 选 择 题 (不 定 项 选择 题 , 至 少 有 一 个 选项 是 正确 的 ) 

1. 我 们 通常 将 学 生 的 考试 结果 按 名 次 排队 ,这 些 名 次 属于 C 3 
A KARA BUFRA C ERA D. 等 比 量 纲 

2. 投射 测验 的 特点 是 & $ 
A. 测验 材料 的 结构 完整 
B. 被 试 的 反应 可 事先 确定 ,反应 的 内 容 是 有 限 的 
C. 刺激 材料 的 意义 不 明确 
D. 结果 解释 是 客观 的 ,不 受 经 验 影响 的 

3. 关于 客观 测验 ,错误 的 描述 是 ( 9 


A. 又 称 自 陈 量 表 B. 用 陈述 句 形式 
C. 常用 因素 分 析 的 方式 D. 常用 联想 的 方式 
4. FC) ,心理 测验 可 分 为 智力 测验 、 特 殊 能 力 测验 .人 格 测验 和 心理 评定 量 表 。 ( o) 
A. 测验 的 目的 分 类 B. 测验 材料 的 性 质 分 类 
C. 测验 材料 的 严谨 程度 分 类 D. 测验 的 功能 分 类 


5. 心理 测验 史上 有 名 的 陆军 甲 种 和 乙 种 测验 是 ¢ 3 
A. 投射 测验 B. 智力 测验 C. 团体 测验 D. 操作 测验 

6. 关于 行为 样本 ,错误 的 说 法 是 € > 
AL 被 试 有 代表 性 的 行为 
B. 能 反映 被 试行 为 特征 的 一 组 行为 
C. 能 反映 被 试 全 部 的 心理 功能 
D. 存在 某 种 程度 的 偏差 
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7. (Po FETE AY PE DE 《4 } 
A. 非 代表 性 B. 直接 性 C. 间接 性 D. 不 可 操作 性 

8. 心理 测验 的 要 素 包 括 « 3 
A. 行为 样本 B. 标准 化 
C. 数量 化 D. 客观 化 

9. 早期 ,我 国民 间 有 不 少 实 用 的 心理 测量 活动 与 方法 ,包括 ( ) 
A. 周岁 试 儿 B. 七 巧 板 益 智 图 
C. 河内 塔 D. 九 连环 游戏 

10. 所 谓 标准 化 ,是 指 测验 的 ( ) 的 程序 的 一 致 性 。 ( ) 
A. 编制 B. 实施 C. a D. 分 数 解释 

11. 关于 陆军 甲 种 和 乙 种 测验 ,正确 的 说 法 是 ( ) 
A. 第 一 个 智力 测验 
B. 开始 于 第 二 次 世界 大 战 
C. 甲 种 测验 共有 8 个 分 测验 
D. 乙 种 测验 适合 文化 程度 较 低 或 母语 为 非 英 语 的 被 试 

12; « ) 属 于 文字 测验 。 ( ) 
A. 16PF B. TAT C 罗 夏 墨迹 测验 D. 瑞 文 推理 测验 

13. 心理 测验 若 按 测验 所 测 的 心理 特性 分 类 ,可 以 分 为 ( ) 
A. 能 力 测验 B. 人 格 测验 
C, 心理 评定 量 表 D. 预测 性 测验 

14. 手机 号 码 , 按 斯 蒂 文 斯 的 划分 属于 ( ) 
A. 称 名 量 纲 B. 顺序 量 纲 
C. 等 距 量 纲 D. 等 比 量 纲 

15. ¢ ) 使 “心理 测验 ”一 词 首 次 出 现在 心理 学 专业 文献 中 。 ( ) 
A. 卡特 尔 B. HAY C. 高 尔 顿 D. HE 

16. 世界 上 第 一 个 正式 的 智力 测验 工具 是 由 ( ) 研 制 的 。 ( 
A. 达尔 文 B. 卡特 尔 C. 高 尔 顿 D. 比 内 


17. 测量 就 是 根据 一 定 的 法 则 用 数字 对 事物 加 以 确定 ,该 定义 包含 三 个 要 素 , 分 别 是 
( ) 


A. 事物 B. 数字 C. 法 则 D. 特征 
18. 测量 量 纲 的 要 素 包 括 ( ) 
AL 零点 B. 单位 C.K D. 运算 


19. 测量 量 纲 , 按 斯 蒂 文 斯 的 划分 , 共 包 括 ) 
AL 称 名 量 纲 B. 顺序 量 纲 C. 等 距 量 纲 D. 等 比 量 纲 

20. ¢ ) 是 人 格 测验 。 ( ) 
A. 主题 统 觉 测 验 B. 罗 夏 墨迹 测验 C. 韦 氏 智力 量 表 D. MMPI 

21. 对 韦 氏 成 人 智力 量 表 中 国 修订 版 (WAIS-RC) 的 描述 ,( ”) 是 错误 的 。 ( ) 
A. WAIS-RC 为 一 般 能 力 测验 B. WAIS-RC 为 操作 测验 
C. WAIS-RC 为 成 人 测验 D. WAIS-RC 为 个 别 测验 
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22. 下 列 四 种 测量 量 纲 中 , 量 纲 水 平 最 高 的 是 
A. KAEH B. 顺序 量 纲 C. 等 距 量 纲 D. 等 比 量 纲 
23. 下 列 属于 评价 心理 测验 的 客观 化 指标 有 
A. 难度 B. 信 度 C. 效 度 D. 常 模 
4. 心理 测验 若 按 测验 材料 的 性 质 分 类 ,可 分 为 
AL 智力 测验 和 人 格 测验 
B. 文字 测验 和 非 文 字 测验 
C. 一 般 能 力 测验 和 特殊 能 力 测验 
D. 客观 测验 和 投射 测验 
5. 按 测验 对 作答 行为 的 要 求 分 类 ,可 将 测验 分 为 


bo 
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A. 最 高 成 就 测验 B. 典型 行为 测验 
C. 主观 测验 D. 客观 测验 
26. 错误 的 测验 观 不 包括 
A. 测验 万 能 论 B. 测验 无 用 论 
C. 心理 测验 即 智力 测验 D. 测验 是 辅助 工具 


27. 正确 的 测验 观 包括 
A. 心理 测验 是 心理 学 重要 的 研究 方法 ,是 决策 的 辅助 工具 
B. 做 心理 测验 的 态度 要 正确 
C. 心理 测验 作为 研究 方法 和 测量 工具 尚 不 完善 
D.“ 一 考 定 终身 "说明 心 理 测验 非常 重要 
8. 关于 测量 ,正确 的 说 法 是 
A. 测量 就 是 心理 测量 
B. 测量 就 是 根据 一 定 的 法 则 用 数字 对 事物 加 以 确定 
C. 测量 就 是 用 数字 来 描述 事物 的 法 则 
D. 测量 就 是 用 一 些 题目 或 数字 来 描述 事物 的 属性 
29. 其 数值 可 以 进行 加 \ 减 、 乘 、 除 等 运算 的 测量 量 纲 是 
A. 称 名 量 纲 B. 顺序 量 纲 C. 等 距 量 纲 D. 等 比 量 纲 
30. 人 格 测验 包括 
A. EPQ B. MMPI C. 16PF D. Raven 
二 、 简 答题 
1. 简 述 测量 ,心理 测量 和 心理 测验 三 者 的 关系 。 
2. 简 述 心理 测验 的 分 类 与 功能 。 
3. 简 述 各 种 类 型 心理 测验 的 发 展 。 
4. 简 述 如 何 正 确 对 待 和 使 用 心理 测验 。 
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第 二 章 OBR 


心理 测量 的 目的 是 对 被 试 的 某 种 心理 特质 进行 评价 。 在 测量 中 ,根据 测量 的 评分 规则 
直接 得 到 的 分 数 称 为 原始 分 数 。 然 而 ,原始 分 数 本 身 具有 的 含义 并 不 充分 。 例 如 ,小 李 在 语 
文 考试 中 得 到 了 70 分 ,在 没有 其 他 任何 附加 数据 的 情况 下 ,我 们 很 难 根据 *70 分 "对 小 李 同 
学 的 语文 能 力作 出 评价 。 因 此 ,在 对 测验 分 数 进行 解释 时 ,并 不 能 只 依靠 根据 评分 规则 直接 
得 到 的 原始 分 数 ,而 需要 将 其 与 某 个 标准 进行 比较 ,从 而 判断 个 体 特质 的 水 平 。 常 模 就 是 这 
样 的 一 种 参照 标准 。 简 言 之 ,一 个 与 被 试 同类 的 团体 在 相同 测验 上 得 分 的 分 布 状 况 或 结构 
模式 可 视 为 常 模 。 对 于 本 例 ,小 李 所 在 班级 在 该 考试 上 的 得 分 情况 可 以 看 作 是 一 个 常 模 , 根 
据 这 个 常 模 ,我 们 可 以 知道 他 在 全 班 的 排名 或 者 与 全 班 均值 的 差 值 ,就 可 以 对 他 的 语文 能 力 
作出 更 准确 的 评价 。 


第 一 节 常 模 团体 


一 、 什 么 是 常 模 ? 


如 何 更 加 通俗 易 慌 地 理解 常 模 呢 ? 常 模 有 何 作用 呢 ?“ 常 模 " 这 两 个 字 是 “ 常 " 更 为 重 
要 ,还 是 “ 模 "更 为 重要 ? 人 们 不 得 不 面临 这 些 问题 。“ 常 "表示 大 多 数 人 常人、 有 代表 性 的 
人 。“ 模 ”是 指 “ 模 式 “ 模 型 "或 “范式 ”。 常 模 意 指 有 代表 性 人 分 数 的 分 布 或 模式 ,是 标准 化 
样本 分 数 构成 的 分 布 或 模式 。 在 建立 常 模 过 程 中 ,要 在 测验 全 体 对 象 中 选择 有 代表 性 的 一 
部 分 人 , 称 为 标准 化 样本 。 常 模 是 解释 心理 测验 的 基础 ,是 用 来 比较 被 试 得 分 高 低 的 标准 。 
为 了 获得 常 模 , 一 般 包 括 以 下 三 个 步骤 。 

第 一 步 , 找 人 。“ 找 人 ”的 意思 是 指 需 要 找到 “有 代表 性 ”的 人 , 即 标准 化 样本 、 常 模样 本 或 
常 模 团体 ,“ 找 人 ”其 实 就 是 从 测验 将 施 对 的 被 试 团体 中 选取 足 量 的 有 代表 的 被 试 样本 。 为 
了 找到 有 代表 性 的 施 测 对 象 ,必须 注意 一 些 事项 ,必须 强调 有 代表 人 的 条 件 , 必 须 使 用 一 定 的 
科学 取样 方法 等 。 为 了 克服 取样 偏差 ,一 般 采 用 随机 取样 方法 ,使 常 模 团 体 具有 更 好 的 代表 
性 。 常 模 团体 的 容量 没有 严格 的 规定 。 一 般 视 总 体 的 大 小 而 定 , 若 总 体 很 大 , 则 取样 的 人 数 要 
多 一 些 ,以 增加 常 模 团体 的 代表 性 。 

第 二 步 , 施 测 。“ 找 人 ”相当 于 找 对 象 ,找到 合适 对 象 之 后 ,为 了 获得 分 数 ,应 该 对 他 们 进 
行 施 测 。 施 测 的 目的 是 获得 “常人 ”的 实际 分 数 , 为 获得 分 数 的 分 布 或 模式 打下 基础 。 施 测 
是 指 对 代表 性 被 试 样本 施 以 合乎 标准 化 要 求 的 测试 ,以 获得 该 被 试 团体 成 员 在 所 测 特 质 上 
足够 而 真实 可 靠 的 测验 分 数 。 在 施 测 过 程 中 .要 按照 测验 标准 化 的 要 求 , 在 所 测 人 数 、 施 测 
环境 方法 步骤 等 方面 ,严格 规范 化 地 进行 ,这 样 才 能 收集 到 常 模 团体 在 测验 上 真实 可 靠 的 
测验 分 数 。 

第 三 步 ,整理 。 在 施 测 “ 常 人 "或 “有 代表 性 人 "之 后 ,需要 对 施 测 的 分 数 进行 整理 ,以 便 
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获得 分 数 的 分 布 或 模式 。 从 分 数 的 分 布 或 模式 中 ,我 们 可 以 看 出 待 比较 分 数 处 于 分 数 分 布 
中 的 哪个 相对 位 置 。 对 收集 到 的 数据 需要 进行 统计 处 理 ,才能 得 到 标准 化 样本 在 该 测验 上 
分 数 的 分 布 状况 ,并 进一步 确定 常 模 分 数 类 型 ,制作 常 模 表 ;同时 给 出 抽取 常 模 团 体 的 书面 
说 明 ,以 及 常 模 分 数 的 解释 指南 等 。 原 始 分 数 没有 比较 的 意义 ,必须 将 原始 分 数 转换 成 具有 
一 定 参 照 点 和 单位 的 导出 分 数 。 常 模 分 数 是 施 测 常 模 团 体 被 试 后 ,将 被 试 的 原始 分 数 按 一 
定 规则 转换 出 来 的 导出 分 数 (往往 是 标准 分 数 )。 例 如 ,下 面 是 EPQ 中 的 P 量 表 按 性 别 和 年 
龄 原始 分 数 对 应 标准 分 数 的 常 模 转 换 表 ,如 表 2 -1 所 示 。 


表 2-1 EPQ 中 的 P 量 表 常 模 转换 表 


P 量 表 
男 i * 
T 分 数 : 

We 20 We 40% BS MS WS 2O= BO MM HOS MS 
120 23 20 23 20 23 20 
115 22 19 22 23 19 22 19 
110 22,23 20,21 18 21 22 18 21 18 
105 21 23 19 23 17 ‘19,20 20,21 22,23 17 19,20 17 
100 19,20 22 18 22 16 | 18 19 21 15,16 18 15,16 
95 18 20,21 17 20,21 14,15 ; 17 18 19,20 14 16,17 14 
90 23 17 18,19 15,16 19 13 | 15.16 16,17 17,18 13 15 13 
85 21,22 15,16 17 14 17,18 12 : 14 15 16 12 14 12 
80 19,20 14 15,16 13 15,16 11 “12,13 13,14 14,15 11 12,13 11 
75 17,18 12,13 13,14 11,12 14 10 | 11 12 12,13 9,10 11 9,10 
70 14~16 1 12 10 12,13 9 : 10 10,11 11 8 9,10 8 
65 12,13 10 10,11 9 10,11 7,8 H 8.9 9 9,10 7 8 7 
60 10,11 8,9 8,9 8 9 6 i 7 7.8 7.8 6 6.7 6 
55 8.9 7 7 6.7 7.8 5 : 6 6 6 5 5 4,5 
50 6.7 5,6 5,6 5 5,6 4 H 4,5 4,5 4,5 3,4 3,4 3 
45 3~5 4 3,4 4 4 3 H 3 3 253 2 2 
40 1,2 253 2 3 253 2 2 1,2 i 1 1 1 
35 1 1 1,2 1 1 1 


根据 表 2 一 1, 如 果 一 个 被 试 .女性 ,28 岁 ,P 量 表 原 始 分 数 为 9 分 ,那么 其 对 应 的 标准 分 数 
工分 数 为 65。 同 理 , 如 果 另 一 个 被 试 ,男性 ,35 岁 ,P 量 表 原 始 分 数 为 12 分 ,那么 其 对 应 的 标准 
分 数 工 分 数 为 70。 有 了 常 模 表 , 就 可 以 根据 一 定 规则 有 效 地 将 原始 分 数 转换 成 导出 分 数 。 

常 模 获 得 的 以 上 三 步 不 是 平行 的 ,其 中 第 一 步 最 为 关键 , 即 “ 找 人 ”最 为 关键 ,这 是 因为 
如 果 找 不 到 合适 的 人 (对 象 ) ,那么 施 测 和 整理 再 科学 合理 ,也 是 空谈 。 如 此 看 来 ,找到 有 代 
表 性 的 人 从 而 获取 其 行为 样本 相当 重要 。 照 此 理解 , 常 模 这 两 个 字 “ 常 "更 为 重要 。 所 找 的 
人 ,其 实 就 是 常 模样 本 ,或 常 模 团体 。 正 为 获得 常 模 的 核心 或 关键 在 于 常 模 团 体 的 获 
取 , 因 此 接 下 来 我 们 将 对 常 模 团体 进行 详细 地 介绍 。 
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二 、 常 模 团体 


常 模 是 基于 被 试 所 在 团体 分 数 的 分 布 , 但 被 试 又 可 以 从 属于 许 许多 多 的 团体 ,比如 同一 
被 试 可 以 从 属于 大 学 生 、 大 学 男生 、 大 学 理科 生 、 大 学 一 年 级 学 生 等 。 显 然 ,因为 不 同 的 团体 
在 测验 上 分 数 的 分 布 不 同 ,所 以 同一 被 试 在 各 个 团体 中 的 相对 位 置 也 会 不 同 。 因 此 ,在 以 常 
模 作 为 测验 分 数 解 释 的 参照 标准 时 ,必须 认 清 被 试 是 在 什么 样 的 常 模 团 体 中 。 

常 模 团 体 是 由 具有 某 种 共同 特征 的 人 所 组 成 的 一 个 群体 ,或 者 是 该 群体 的 一 个 样本 。 
简单 地 说 , 常 模 团体 是 欲 获得 常 模 所 施 测 的 对 象 ,而 常 模 是 基于 这 个 常 模 团体 用 一 个 标准 
的 ,规范 的 分 数 表示 出 来 的 分 布 ,以 提供 比较 的 基础 。 

(一 ) 常 模 团体 的 注意 事项 

(1) 在 对 测验 分 数 作 解 释 时 ,必须 考虑 常 模 团体 的 组 成 。 为 了 更 好 地 对 测验 分 数 作出 
解释 , 常 模 团 体 的 选择 是 个 关键 。 然 而 ,对 所 选择 的 常 模 团体 的 组 成 ,需要 作出 详细 说 明 ,以 
提供 比较 标准 的 性 质 。 

(2) 基于 对 将 要 施 测 总 体 的 认识 , 常 模 团 体 要 能 代表 总 体 。 为 了 使 得 常 模 团 体能 够 代 
表 总 体 ,必须 确定 代表 性 样本 。 要 确定 代表 性 样本 ,一 般 包 括 三 个 步骤 ,分 别 是 确定 一 般 总 
体 、 确 定 目标 总 体 和 确定 样本 。 例 如 ,研究 大 学 生 价值 观 问题 ,要 选择 有 代表 性 的 样本 ,就 必 
须 首先 确定 一 般 总 体 , 即 大 学 生 。 然 后 ,确定 目标 总 体 。 目 标 总 体 是 计划 实施 的 对 象 ,如 计 
划 实 施 的 在 校 大 学 生 。 最 后 ,确定 样本 。 因 为 在 校 大 学 生 不 可 穷尽 ,所 以 只 能 根据 总 体 的 性 
质 ( 性 别 \ 年 龄 专业、 家庭 背景 等 ), 找 出 一 些 有 代表 性 的 样本 来 代表 目标 总 体 ,也 代表 一 般 
总 体 , 如 图 2-1 所 示 。 


- 般 总 体 ( 大 学 生 ) 


目标 总 体 (在 校 大 学 生 ) 


图 2-1 大 学 生 价值 观 代表 性 样本 


G) 常 模 团体 可 能 有 很 多 ,需要 考虑 哪个 常 模 团 体 最 合适 。 例 如 ,SCL - 90 的 常 模 有 多 
个 ,如 全 国 成 人 常 模 (1388 人 )、 全 国 青年 常 模 (781 人 )、 全 国 地 区 大 学 生 常 模 (4141 A 
省 常 模 等 , 哪 一 个 常 模 对 测验 使 用 者 最 为 合适 呢 ? 则 需要 测验 使 用 者 考虑 所 取样 的 被 试 与 
哪 一 个 常 模 团体 最 接近 。 

(=) 常 模 团体 的 条 件 

1. 群体 构成 的 界限 必须 明确 

被 试 个 体 所 组 成 的 总 体 , 既 可 以 是 自然 群体 ,如 所 有 小 学 生 , 也 可 以 是 按 一 定 规定 组 成 
的 群体 ,如 培 智 学 校 的 所 有 小 学 生 。 有 些 群 体 很 明确 ,如 教育 系统 所 有 10 岁 的 学 生 , 有 些 群 
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体 则 比较 模糊 ,如 家 教 不 好 的 学 生 。 显 然 , 只 有 当 总 体 界限 明确 时 , 才 有 可 能 可 靠 地 估计 出 
这 个 总 体 的 行为 表现 。 否 则 ,由 此 总 体 得 出 的 常 模 的 可 靠 性 就 值得 怀疑 。 在 制定 常 模 时 , 必 
须 清楚 地 说 明 所 要 测量 的 群体 的 性 质 与 特征 。 可 以 用 来 区 分 和 限定 群体 性 质 与 特征 的 变量 
很 多 ,如 性 别 、 年 龄 .职业 文化 程度 .民族 地理 地 域 . 社 会 经 济 地 位 等 。 例 如 ,为 了 清楚 地 说 
明 所 要 测量 的 群体 的 性 质 与 特征 ,对 于 EPQ 的 取样 ,分 为 性 别 、 年 龄 .教育 .职业 和 地 区 (可 
参见 EPQ 成 人 常 模 说 明 ) ,如 表 2-2 和 表 2-3 所 示 。 


表 2-2 EPQ 成 人 样本 说 明 ( 性 别 、. 年 龄 .教育 .职业 ) 


性 别 Fe AK 教 育 职 业 
( 岁 ) 人) sc 小 学 中 学 大 学 工人 农民 学 生 教师 干部 医务 科技 文体 其 他 
16 一 19 95 = 4 60 31 32 12 43 1 = 1 = 1 5 
20~29 95 — a 57 31 19 10 28 6 7 13 4 5 3 
30~39 95 1 25 51 18 34 13 a 12 13 13 2 4 4 
男 40 一 49 95 3 17 51 24 28 6 = 14 17 19 5 5 $ 
50~59 60 9 17 24 10 19 4 = 3 16 a 2 4 5 
60 岁 及 以 上 60 12 23 17 8 6b ù 一 4 8 3 1 2 18 
小 计 500 25 93 260 122 147 54 71 40 61 56 14 21 36 
16~19 96 _ 6 65 25 30 5 39 1 1 16 = 2 2 
20~29 96 一 1 54 41 #19 2 32 13 10 183 4 — 8 
30~39 96 4 M 61 17 2 5 5 8B 14 2 2 3 4 
女 40~49 96 13 15 4 2 2 3 — W 18 38 2 1 3 
50~59 58 9 12 27 7% 1 6 — B 6 17 — 1 4 
60 岁 及 以 上 58 32 15 7 42 9 一 3 1 t 2 一 30 


小 计 500 58 63 262 177 #114 30 76 54 50 113 10 7 46 


表 2-3 EPQ 成 人 样本 说 明 ( 地 区 ) 


成 人 

地 区 

男 女 
东北 46 65 
华北 16 29 
西北 63 40 
华东 56 41 
西南 21 27 
中 南 298 298 
小 计 500 500 
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2. 常 模 团体 必须 是 所 测 群体 的 一 个 代表 性 样本 

从 原则 上 说 ,为 了 获得 有 代表 性 的 常 模 团体 ,应 该 找到 属于 某 一 总 体 的 全 部 个 体 。 但 
是 , 当 总 体 的 个 体 较 多 时 ,通常 没有 必要 逐个 找到 这 些 个 体 , 而 是 可 以 通过 取样 的 方法 来 确 
定常 模 团 体 。 只 是 必须 记 住 , 常 模 团体 是 代表 整体 的 ,因此 任何 取样 都 必须 真实 地 反映 总 
体 。 如 果 除 了 对 总 体 的 基本 描述 外 没有 其 他 信息 ,那么 可 以 用 随机 取样 方法 来 减少 抽样 中 
的 偏差 。 为 了 获得 有 代表 性 的 常 模 团 体 ,需要 注意 以 下 方面 。 

(1) 当 总 体 较 小 时 ,需要 将 所 有 个 体 逐 个 测量 。 

(2) 当 总 体 较 大 时 ,需要 取样 ,但 取样 要 有 代表 性 ,以 保证 样本 代表 总 体 ,不 致 产生 较 大 
的 偏差 。 

(3) 取样 方法 有 别 ,一 般 采 用 随机 取样 方法 。 

3. 样本 大 小 要 适当 

样本 大 小 的 确定 并 没有 明确 标准 ,一 般 从 “ 减 小 误差 "和 “ 增 大 投入 ”两 个 方面 来 考虑 。 
由 于 取样 误差 与 样本 容量 成 反比 ,因此 在 其 他 各 方面 条 件 相同 的 情况 下 ,样本 越 大 越 好 ,但 
还 要 考虑 人 力 、 物 力 ` 财 力 等 各 方面 资本 条 件 的 制约 。 因 此 ,样本 大 小 要 适当 ,不 是 越 大越 
好 。 样 本 “大 小 适当 ”并 没有 严格 的 规定 ,要 考虑 取样 误差 减 小 (样本 容量 增 大 ) 与 资本 投入 
增 大 的 矛盾 关系 ,取得 "性价比" 或 效率" 最大。 样本 大 小 要 适当 的 关键 是 样本 要 有 代表 性 。 
即使 大 样本 也 要 考虑 其 "代表 性 ”, 和 否则 不 如 取 一 个 有 代表 性 的 小 样本 。 如 果 总 数目 较 小 , 那 
么 要 100% 取 完 ; 如 果 总 数目 较 大 ,那么 相应 的 样本 也 要 大 。 

通常 在 决定 样本 大 小 时 ,应 注意 以 下 方面 。 

(1) 总 体 数目 。 总 体 数目 较 小 ,样本 相应 可 小 一 些 , 但 不 应 过 小 , 若 总 体 数 目 过 小 , 则 可 
将 全 部 被 试 入选 ; 总 体 数目 较 大 ,样本 相应 可 大 一 些 。 

(2) 群体 性 质 。 若 群体 性 质 单一 , 则 样本 不 必 太 大 ; 若 群 体 性 质 复杂 , 则 样本 容量 就 应 
大 一 些 。 

(3) 结果 精度 。 根 据 统计 学 原理 ,取样 误差 与 样本 容量 成 反比 , 若 要 提高 测验 结果 精 
度 , 即 减 小 抽样 误差 , 则 必须 增 大 样本 容量 。 

4. 常 模 团体 必须 是 近 时 的 

这 其 实 是 常 模 的 时 间 性 和 空间 性 问题 。 由 于 时 代 的 进步 和 科技 的 发 展 ,使 处 于 不 同年 
代 的 同类 测验 成 绩 不 再 具有 可 比 性 。 比 方 说 ,今天 的 儿童 比 起 30 年 前 的 同龄 儿童 成 熟 更 
时 ,知识 更 丰富 ,30 年 前 的 常 模 团 体 就 不 应 作为 今天 的 参照 标准 。 因 此 , 常 模 团 体 需 要 及 时 
更 新 。 常 模 团体 的 更 新 主要 包括 以 下 方面 。 

(1) 时 间 上 。 要 定期 修订 测验 ,以 使 测验 解释 与 标准 “与 时 俱 进 ”, 保 证 所 使 用 的 常 模 团 
体 为 近 时 的 。 例 如 : 

O 斯 坦 福 一 比 内 智力 量 表 修订 过 四 次 ; 

© 韦 氏 成 人 智力 量 表 修 订 过 三 次 ; 

O 比 内 一 西蒙 智力 量 表 修订 过 二 次 ; 

© MMPI 人格 测验 修订 过 二 次 。 

(2) 空间 上 。 直 接 使 用 国外 的 常 模 , 不 一 定 适 合 国内 情况 ,需要 重新 收集 符合 中 国 国情 
的 常 模 团体 ,以便 建立 新 的 常 模 。 
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(三 ) 常 模 团体 的 取样 方法 

取样 的 目的 是 从 目标 人 群 中 选择 有 代表 性 的 样本 。 取 样 方法 包括 随机 取样 方法 和 非 随 
机 取样 方法 。 

随机 取样 方法 的 原则 是 从 总 体 中 取样 时 ,所 取 个 案 不 是 人 为 地 主观 决定 的 ,每 个 个 案 
(个 体 ) 被 抽取 的 机 会 均等 。 常 见 的 随机 取样 方法 包括 以 下 几 种 。 

1. 简单 随机 抽样 

(1) 随机 数字 表 法 。 先 对 每 个 个 案 编号 ,后 根据 随机 数字 表 进 行 抽样 。 

(2) 抽签 法 。 先 将 总 体 中 的 所 有 个 案 编号 ,并 把 号 码 逐 个 写 在 形状 、 大 小 相同 的 号 签 
上 ,然后 将 这 些 号 签 放 在 一 起 均匀 搅拌 ,进行 抽样 ,包括 有 放 回 抽样 和 无 放 回 抽 样 。 

对 简单 随机 抽样 的 评价 : D 优点 : 方法 简单 , 易 理 解 , 比 较 简 明 。@ 缺点 : 难以 编号 或 
贴标签 ,大 规模 的 抽样 几乎 是 不 可 能 进行 的 ;没有 利用 总 体 信息 ,仅仅 是 “ 简 简单 单 ” 地 随机 
抽样 。 

2. 系统 抽样 

在 实施 时 ,将 已 编 好 号 码 的 个 体 排 成 顺序 ,然后 每 隔 若 干 个 抽取 一 个 。 因 此 ,有 时 又 称 
之 为 等 距 抽样 或 机 械 抽 样 。 

对 系统 抽样 的 评价 : O 优点 : 利用 了 总 体 的 信息 ,比较 均匀 地 照顾 到 了 总 体 的 各 个 阶 
段 。@ 缺点 : 若 总 体 信息 呈现 有 规律 , 则 不 能 用 系统 抽样 。 例 如 ,抽取 军队 以 班 为 单位 的 
人 ,误差 可 能 更 大 。 

3. 分 组 抽样 

有 时 总 体 数 目 较 大 ,无 法 编号 ,而 且 群 体 又 有 多 样 性 ,这 时 可 以 先 将 群体 进行 分 组 ,再 在 
组 内 进行 简单 随机 抽样 。 因 此 ,分 组 抽样 又 称 为 两 阶段 抽样 。 例 如 ,调查 全 国 某 一 年 龄 组 城 
市 儿童 的 认 知 能 力 。 

(1) 简单 随机 抽样 和 系统 抽样 不 行 。 这 是 因为 , 若 使 用 简单 随机 抽样 和 系统 抽样 , 则 对 
儿童 编号 太 困难 。 

(2) 分 层 抽 样 也 不 行 。 这 是 因为 .分 层 抽样 还 是 在 原 总 体 中 抽样 , 当 总 体 很 大 时 ,人 力 、 
物力 、 财 力 等 有 限制 。 

(3) 分 组 抽样 可 行 。 这 是 因为 ,可 以 先 抽取 一 部 分 城市 ,再 以 这 部 分 城市 为 代表 ,在 这 
些 城市 中 选取 儿童 。 

对 分 组 抽样 的 评价 : 优点 : 节省 人 力 、 物 力 、 财 力 , 大 规模 调查 中 能 采用 。@ 缺点 : 
与 简单 随机 抽样 相 比 ,因为 存在 两 个 阶段 的 抽样 ,多 出 了 一 个 阶段 的 抽样 ,因此 引入 了 更 大 

4. 分 层 抽样 

分 层 抽 样 是 确定 常 模 团 体 最 常用 的 随机 取样 方法 ,其 基本 步骤 如 下 : 

(1) 将 目标 总 体 按 某 些 变量 (如 性 别 、 年 龄 等 ) 分 “ 层 ”， 

(2) 根据 不 同 的 分 层 , 再 在 各 层 中 抽样 。 

例如 ,在 中 国 ,EPQ 常 模 团 体 是 按 性 别 、 年 龄 .教育 .职业 、 地 区 等 5 个 变量 进行 分 层 。 
在 美国 , 韦 氏 智力 量 表 ( 幼 儿 ) 常 模 团 体 是 按 年 龄 ,性 别 、 种 族 、 地 区 、 家 长 职业 ,城市 与 农村 等 
6 个 变量 进行 分 层 。 在 日 本 , 韦 氏 智力 量 表 (幼儿 ) 常 模 团体 是 按 年 龄 性别、 地 区 等 3 个 变量 
进行 分 层 。 
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对 分 层 抽样 的 评价 : D 优点 : 充分 利用 了 总 体 ( 变 量 ) 的 信息 ,其 样本 的 代表 性 精度 高 。 
@ 缺点 : 有 时 分 层 的 变量 难以 确定 。 

分 组 抽样 与 分 层 抽样 的 异同 表现 如 下 。 

CD 相同 之 处 。 从 形式 上 看 都 分 成 两 步 : 第 一 步 将 总 体 分 成 若干 部 分 ;第 二 步 再 分 别 从 
若干 部 分 中 抽取 个 体 。 

(2) 不 同 之 处 。 两 者 在 第 一 步 中 有 着 根本 的 区 别 。 在 分 层 抽样 中 ,由 于 对 于 每 一 个 部 
分 ( 即 * 层 ” 均 需 从 中 抽取 个 体 , 因 而 不 存在 第 一 阶段 样本 。 而 在 分 组 抽样 中 ,将 总 体 分 成 若 
干 个 “集团 "后 ,并 不 是 对 每 一 个 集团 都 再 进行 第 二 阶段 抽样 ,而 是 在 所 有 的 集团 中 先 抽 取 一 
部 分 “集团 ”, 这 里 实际 上 进行 了 第 一 阶段 抽样 ,构成 了 第 一 阶段 样本 ,然后 再 对 所 选 “集团 ” 
作 第 二 阶段 抽样 。 如 此 看 来 ,分 组 抽样 存在 第 一 阶段 样本 ,而 分 层 抽 样 却 不 存在 第 一 阶段 样 
本 ,这 就 是 两 种 取样 方法 的 不 同 之 处 。 
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根据 常 模 的 发 展 历史 ,可 以 将 常 模 分 为 两 类 : 发 展 常 模 和 组 内 常 模 。 发 展 常 模 是 一 种 
组 外 常 模 ,可 以 在 组 外 找到 一 个 标准 用 以 比较 。 但 是 , 当 外 部 标准 找 不 到 时 ,只 能 在 组 内 找 
一 个 标准 来 进行 比较 ,这 个 组 内 标准 就 成 了 组 内 常 模 。 组 内 常 模 为 目前 较为 常用 的 常 模 。 
为 了 表达 分 数 在 常 模 中 的 高 低 ( 位 置 ), 组 内 常 模 常 常用 地 位 量 数 来 表示 ,常见 的 地 位 量 数 包 
括 百 分 等 级 和 标准 分 数 。 对 应 地 ,其 常 模 分 别 是 百 分 等 级 常 模 和 标准 分 数 常 模 , 前 者 用 百 分 
等 级 来 表示 分 数 的 相对 位 置 ,后 者 用 标准 分 数 来 表示 分 数 的 相对 位 置 。 


一 、 发 展 常 模 


使 测验 分 数 具 有 意义 的 一 种 可 能 方法 ,是 通过 对 原始 分 数 的 变换 ,表明 个 体 在 正常 发 展 
中 达到 了 怎样 的 发 展 水 平 。 人 的 智力 .技能 等 许多 心理 特质 的 发 展 都 与 时 间 的 延续 有 关 。 
因此 ,可 以 把 个 人 的 成 绩 和 各 种 发 展 水 平 的 人 的 成 绩 比 较 而 制 成 发 展 量 表 。 根 据 这 种 平均 
表现 所 制 成 的 量 表 就 是 发 展 常 模 , 亦 称 年 龄 量 表 。 例 如 ,在 智力 测验 上 , 若 一 个 8 岁 儿 童 的 
智力 成 绩 和 10 岁 儿 童 的 平均 成 绩 一 样 好 , 则 我 们 可 以 说 他 的 智力 年 龄 为 10 岁 。 另 外 ,也 可 
能 存在 这 样 的 现象 : 一 个 上 小 学 四 年 级 的 儿童 在 阅读 测验 上 的 成 绩 达 到 了 六 年 级 的 阅读 测 
验 水 平 ,而 在 算术 测验 上 只 达到 了 三 年 级 水 平 。 发 展 常 模 的 分 数 往往 是 相对 粗糙 的 , 常 不 能 
适用 于 更 为 精确 的 统计 处 理 。 但 是 ,对 于 某 些 描述 目的 ,临床 病理 初步 诊断 及 其 他 研究 目 
的 ,还 是 非常 有 用 的 。 发 展 常 模 主 要 包括 顺序 常 模 、 年 龄 常 模 和 年 级 常 模 。 

(一 ) 顺序 常 模 

顺序 常 模 起 源 于 儿童 心理 学 的 研究 ,最 直观 的 发 展 常 模 是 发 展 顺序 量 表 。 通 过 对 婴 幼 
儿 行 为 发 展 的 经 验 观 察 , 人 们 描述 诸如 运动 .感觉 辨别 力 . 语 言 交 流 、 概 念 形成 等 机 能 随 年 龄 
而 发 展 的 典型 行为 。1925 年 , 格 塞 尔 (A. Gesell) 提 出 了 儿童 动作 发 展 量 表 , 即 格 塞 尔 发 展 顺 
序 表 。 该 量 表 将 儿童 的 行为 与 从 4 周到 36 个 月 的 8 个 关键 年 龄 的 典型 行为 相 比较 , 按 月 份 
显示 了 儿童 在 运动 水 平 、 适 应 性 .语言 .社会 性 等 行为 领域 中 所 达到 的 大 致 发 展 水 平 。 格 塞 
尔 强 调 了 早期 行为 发 展 的 顺序 模式 ,认为 各 发 展 阶段 遵循 不 变 的 顺序 ,每 一 阶段 以 掌握 前 一 
阶段 的 必要 行为 特征 为 前 提 。 之 后 ,在 20 世纪 中 期 .瑞士 儿童 心理 学 家 皮 亚 杰 (J. Piaget) 提 
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出 了 以 儿童 认 知 图 式 发 展 几 个 阶段 为 基础 的 认 知 发 生 论 。 皮 亚 杰 的 研究 主要 集中 在 从 婴儿 
到 少年 认 知 过 程 的 发 展 。 他 所 关注 的 是 具体 的 概念 而 不 是 一 般 的 能 力 ,如 物体 的 永久 性 、 知 
觉 的 守恒 性 等 。 他 认为 , 认 知 过 程 的 形成 具有 一 定 的 时 间 顺 序 , 只 有 前 一 阶段 完成 后 才能 进 
人 下 一 阶段 。 后 来 , 皮 亚 杰 在 做 研究 中 所 采用 的 一 些 作 业 和 问题 被 组 织 成 了 标准 化 量 表 ,用 
以 研究 儿童 在 每 一 发 展 阶段 的 特性 ,以 提供 儿童 实际 能 做 什么 的 信息 。 皮 亚 杰 的 标准 化 量 
表 的 分 数 可 以 用 相近 的 年 龄 水 平 来 表示 ,用 以 鉴别 儿童 在 具体 行为 机 能 的 发 展 中 所 达到 的 
阶段 。 可 见 ,该 量 表 着 重 于 定性 与 定量 的 整合 分 析 , 对 促进 心理 计量 模型 与 实质 心理 学 理论 
的 结合 ,有 非常 大 的 作用 。 

(二 ) 年 龄 常 模 

比 内 在 20 世纪 初 提 出 了 一 个 设想 : 测量 儿童 心理 成 长 ,可 以 通过 将 一 个 儿童 的 行为 与 
各 年 龄 阶段 一 般 儿童 的 行为 进行 比较 的 方式 ,来 获得 该 儿童 心理 发 展 的 状况 。 在 此 设想 的 
基础 上 ,他 首先 寻找 并 设计 出 可 区 分 各 年 龄 儿童 智力 的 项 目 。 每 个 项 目 都 放 在 某 个 年 龄 阶 
段 大 部 分 儿童 能 够 成 功 完成 的 那个 年 龄 水 平 。 例 如 ,标准 化 样本 中 ,大 多 数 7 岁 儿 童 通过 的 
项 目 就 代表 7 岁 儿 童 的 智力 水 平 , 被 划 入 7 岁 组 ;大 多 数 8 岁 儿 童 通过 的 项 目 就 代表 8 岁 儿 
童 的 智力 水 平 , 被 划 入 8 岁 组 ,以 此 类 推 。 每 个 年 龄 水 平 制定 适当 的 项 目 , 就 可 以 得 到 一 个 
可 评价 儿童 智力 发 展 水 平 的 年 龄 量 表 。 一 个 儿童 在 年 龄 量 表 上 所 得 的 分 数 ,就 是 最 能 代表 
他 的 智力 水 平 的 年 龄 ,这 种 分 数 叫 作 智 力 年 龄 ,简称 智 龄 。 所 有 的 年 龄 量 表 基 本 上 都 是 利用 
相同 的 推理 与 步骤 制定 的 ,即将 个 人 的 行为 与 各 年 龄 阶段 一 般 儿 童 的 行为 进行 比较 ,而 给 予 
一 个 年 龄 分 数 。 

年 龄 常 模 一 般 应 包括 三 个 基本 要 素 : 一 是 一 套 能 区 分 不 同年 龄 组 的 项 目 ;二 是 一 个 由 
不 同年 龄 被 试 组 成 的 常 模 团体 ;三 是 一 个 表明 答对 哪些 项 目 该 归 入 哪个 年 龄 的 常 模 。 

有 些 测验 (如 某 些 团体 测验 ) 无 法 将 测验 项 目 划 入 年 龄 组 。 在 这 种 情况 下 ,必须 先 确定 
被 试 的 原始 分 数 。 这 样 的 原始 分 数 可 以 是 在 整套 测验 中 被 试 做 对 的 项 目 总 数 ,也 可 以 是 完 
成 该 套 测验 所 需要 的 时 间 、 错 误 数 或 以 上 几 者 的 联合 等 。 标 准 化 样本 中 每 个 年 龄 组 的 平均 
原始 分 数 就 构成 了 这 份 测验 的 年 龄 常 模 。 将 原始 分 数 与 年 龄 常 模 对 比 , 便 可 求 得 某 被 试 的 
智力 年 龄 。 

年 龄 常 模 的 优点 是 易于 理解 和 解释 ,可 以 与 同年 龄 团体 作 直 接 比较 。 但 是 ,应 该 注意 的 
是 , 智 龄 的 单位 并 不 能 保持 恒 等 ,而 是 随 着 年 龄 的 增长 而 减 小 。 智 力 在 幼年 发 展 快 ,但 随 着 
年 龄 的 增长 其 速率 是 先 快 后 慢 。 例 如 ,幼儿 3 一 4 岁 的 智力 增长 相当 于 儿童 9 一 12 岁 的 智力 
增长 。 

(三 ) 年 级 常 模 

按照 比 内 所 开辟 的 方法 论 道路 ,人 们 后 来 又 建立 起 了 许多 发 展 常 模 。 其 中 ,在 学 业 成 就 测 
验 中 ,分 数 的 解释 可 以 采用 年 级 常 模 。 年 级 常 模 是 学 业 成 就 发 展 水 平 的 常 模 ,即将 被 试 的 测验 
成 绩 与 某 一 年 级 的 学 生 的 平均 分 数 作 比较 ,解释 成 相当 于 某 一 年 级 水 平 或 某 一 年 级 当量 。 例 
如 , 某 学 生 的 拼写 相当 于 五 年 级 水 平 (当量 ), 阅 读 相当 于 四 年 级 水 平 (当量 ), 而 数学 相当 于 初 
一 年 级 水 平 ( 当 量 )。 年 级 常 模 选择 项 目 与 指定 分 数 的 方法 和 步骤 ,与 年 龄 常 模 相 类 似 , 可 以 从 
计算 各 年 级 学 生 在 某 份 测验 上 的 平均 原始 分 数 而 得 到 ,所 不 同 的 是 用 年 级 当量 替代 了 年 龄 水 
平 。 例 如 ,标准 化 样本 中 四 年 级 学 生 , 如 果 在 算术 测验 上 答对 问题 的 平均 原始 分 数 为 23 分 , 那 
么 23 分 就 相当 于 四 年 级 的 年 级 当量 。 
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年 级 常 模 的 单位 通常 是 10 个 月 间隔 。 我 们 可 以 采用 十 进 制 小 数 来 表示 连续 的 月 份 。 
例如 ,4. 0 表示 四 年 级 开始 时 的 平均 成 绩 ,4. 5 表示 四 年 级 中 期 (第 五 个 月 份 测验 ) 的 平均 成 

尽管 年 级 常 模 使 用 比较 普遍 ,但 仍然 存在 着 一 些 不 足 之 处 ,如 下 。 

首先 ,年 级 常 模 仅仅 适用 于 测验 各 年 级 都 开设 的 共同 学 科 。 由 于 教学 内 容 随 年 级 而 变 
化 ,因而 年 级 常 模 只 适用 于 一 般 的 课程 ,不 适用 于 高 年 级 水 平 。 在 高 年 级 阶段 ,许多 科目 只 
学 习 一 两 年 ,即使 每 个 学 期 都 学 的 科目 ,强调 的 重点 也 会 随 年 级 而 变化 ,并 且 各 年 级 的 教学 
内 容 .教学 速度 都 是 不 一 样 的。 因此 ,年 级 常 模 的 单位 是 不 相等 的 。 

其 次 ,年 级 当量 的 解释 比较 困难 。 例 如 ,一 个 五 年 级 的 学 生 在 标准 化 的 教学 测验 中 获得 
了 7.9 的 年 级 当量 ,但 这 并 不 意味 着 他 已 经 掌握 了 初 一 的 教学 内 容 , 只 能 说 他 在 五 年 级 是 非 
常 优秀 的 ,也 不 能 说 他 已 经 具备 了 升 人 初 二 的 条 件 ; 而 另外 一 个 初 二 的 学 生 也 获得 了 7. 9 分 
的 年 级 当量 , 则 说 明 他 的 成 绩 在 年 级 的 位 置 是 中 等 水 平 。 但 是 ,这 两 个 学 生 掌 握 的 知识 并 不 
完全 对 等 。 

最 后 ,年 级 常 模 容 易 被 误 认为 是 成 绩 标准 。 例 如 ,一 个 教 六 年 级 的 老师 可 能 认为 他 班 上 
所 有 学 生 的 学 习 成 绩 应 该 达到 或 接近 六 年 级 常 模 团 体 的 成 绩 。 可 事实 上 ,一 些 学 生 能 达到 ， 
而 大 部 分 学 生 可 能 达 不 到 ,这 就 容易 导致 对 年 级 常 模 产 生 误解 。 我 们 必须 清楚 , 常 模 与 标准 
是 不 同 的 ,标准 是 指 希 望 达到 的 标准 ,而 常 模 则 是 代表 群体 分 数 的 分 布 。 

(四 ) 对 发 展 常 模 的 评价 

发 展 常 模 是 用 来 表示 个 体 在 正常 发 展 线 上 处 于 怎样 的 水 平 。 发 展 常 模 的 优点 是 ,以 年 龄 
水 平 或 年 级 当量 作为 单位 容易 理解 ,可 以 与 同等 团体 作 直接 比较 ,并 且 为 个 人 分 数 进行 横向 和 
纵向 比较 提供 了 基础 。 但 是 ,发 展 常 模 又 具有 一 些 不 足 : 一 是 由 于 发 展 常 模 只 适用 于 所 测 的 特 
质 随 年 龄 或 年 级 发 生 系统 变化 的 情况 ,因而 只 适用 于 年 龄 较 小 的 儿童 ;二 是 由 于 人 的 行为 发 展 
受 教育 与 经 验 的 影响 ,因而 发 展 常 模 只 适用 于 典型 环境 下 的 儿童 ;三 是 由 于 发 展 常 模 量 纲 单位 不 
相等 ,因而 通过 发 展 常 模 获 得 同样 的 年 龄 水 平 或 年 级 当量 ,并 不 一 定 具 有 相同 的 智力 或 学 业 水 平 。 

另外 ,发 展 常 模 类 似 于 一 种 绝对 评价 ,往往 以 人 们 的 经 验 值 或 项 目 作为 比较 的 基础 , 仅 
强调 某 一 发 展 阶段 的 一 般 情况 ,不 能 在 微观 上 再 进一步 细 分 。 发 展 常 模 也 不 直接 关心 同一 
背景 .同一 地 位 (如 同一 性 别 、 同 一 教育 程度 ) 的 各 被 试 间 的 个 别 差异 。 因 此 ,发 展 常 模 较 难 
做 到 再 进一步 细 分 常 模 , 如 不 能 按 性 别 等 差异 再 进一步 对 常 模 作 出 细 分 等 。 


二 、 组 内 常 模 


组 内 常 模 也 称 作 团体 内 常 模 , 是 根据 团体 内 标准 化 样本 的 成 绩 来 评价 被 试 的 成 绩 。 例 
如 ,把 一 名 儿童 心理 测验 中 的 原始 分 数 与 相同 年 龄 或 相同 年 级 的 儿童 相 比 较 , 就 要 用 到 组 内 
常 模 。 现 在 ,几乎 所 有 的 标准 化 测验 都 提供 了 某 种 形式 的 组 内 常 模 。 与 发 展 常 模 相 比 ,组 内 
常 模 有 一 个 统一 、 清 楚 地 定义 好 了 的 数量 关系 ,能 运用 于 大 多 数 统计 分 析 。 组 内 常 模 有 很 多 
种 ,我 们 这 里 主要 介绍 百 分 等 级 常 模 和 标准 分 数 常 模 。 

(一 ) 百 分 等 级 常 模 

L 百 分 等 级 和 百 分 等 级 常 模 

当 人 们 运用 心理 测验 作为 判定 个 体 心 理 特征 或 个 别 差异 的 工具 时 ,需要 考虑 某 个 被 试 
测验 分 数 (原始 分 数 ) 在 同一 性 质 群体 中 所 处 的 地 位 。 百 分 等 级 常 模 是 一 种 相对 评价 的 方 
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法 ,是 将 测验 的 原始 分 数 转化 成 百 分 等 级 ,用 团体 中 低 于 被 试 测验 分 数 的 人 的 百分数 来 表示 
被 试 在 团体 中 的 相对 地 位 的 参照 常 模 。 它 的 基本 思想 是 : 选取 一 个 有 代表 性 的 常 模 团体 ， 
把 他 们 在 某 种 心理 测验 上 的 原始 分 数 的 全 距 划分 为 100 个 等 级 ,然后 建立 起 原始 分 数 与 百 
分 等 级 之 间 一 一 对 应 的 关系 。 这 样 ,每 一 个 原始 分 数 都 有 一 个 百 分 等 级 与 之 相对 应 。 例 如 ， 
某 一 被 试 在 某 一 项 测验 中 得 了 80 分 ,经 过 换算 , 百 分 等 级 为 75, 就 表示 参加 该 项 测验 的 被 试 
的 得 分 低 于 80 分 的 人 数 占 全 体 被 试 人 数 的 75%。 可 见 , 百 分 等 级 取 值 越 大 ,说 明 被 试 成 绩 
越 优秀 。 下 面 是 瑞 文 标准 推理 测验 百 分 等 级 常 模 表 ( 部 分 ), 如 表 2 一 4 所 示 。 


表 2-4 瑞 文 标准 推理 测验 百 分 等 级 常 模 表 (部 分 ) 


% iad Ms 20~ 30~ 40~ 50~ 60~ 70~ 
4 


根据 瑞 文 标准 推理 测验 百 分 等 级 常 模 表 ,可 以 获得 原始 分 数 对 应 的 百 分 等 级 ,再 根据 百 
分 等 级 给 出 智力 水 平等 级 ,如 表 2-5 所 示 。 


R2-S 瑞 文 标准 推理 测验 智力 水 平等 级 标准 


一 级 : 百 分 等 级 大 于 或 等 于 95% ,为 高 水 平 智力 。 
二 级 : 百 分 等 级 在 75% 与 95% 之 间 ,智力 水 平 良好 。 
三 级 : 百 分 等 级 在 25% 与 75% 之 间 , 为 中 等 水 平 智力 。 
四 级 : 百 分 等 级 在 5% 与 25% 之 间 , 智 力 水 平 中 下 。 
ER: 百 分 等 级 小 于 5%, 为 智力 缺陷 。 


例如 ,一 个 28 岁 的 被 试 在 瑞 文 标准 推理 测验 上 的 原始 分 数 为 56 分 ,那么 他 对 应 的 百 分 
等 级 (根据 表 2 一 4) 为 90%, 他 的 智力 水 平等 级 为 二 级 (根据 表 2 - 5)。 

2. 对 百 分 等 级 的 评价 

百 分 等 级 是 一 种 相对 地 位 量 数 ,计算 简单 ,具有 可 比 性 ,也 容易 对 被 试 作出 解释 ,因而 应 
用 比较 广泛 。 另 外 , 百 分 等 级 不 受 原始 分 数 分 布 状态 的 影响 ,即使 分 数 分 布 不 是 正 态 分 布 ， 
也 不 会 改变 百 分 等 级 常 模 的 解释 能 力 。 

但 是 , 百 分 等 级 是 一 种 表达 在 顺序 量 纲 上 的 量 数 , 它 在 统计 分 析 中 不 能 作 加 、 减 、 乘 、 除 
等 运算 。 另 外 , 百 分 等 级 是 相对 于 特定 的 被 试 团体 而 言 的 ,所 以 ,在 使 用 百 分 等 级 常 模 作 解 
释 时 不 能 离开 特定 的 参照 团体 。 被 试 得 分 不 变 , 但 参照 团体 改变 了 , 百 分 等 级 就 有 可 能 发 生 
变化 。 因 此 ,在 报告 百 分 等 级 时 ,一 定 要 说 明 是 相对 于 什么 参照 团体 而 言 的 。 在 百 分 等 级 常 
模 应 用 中 , 百 分 等 级 存在 以 下 两 个 缺点 。 

CL) 百 分 等 级 的 单位 不 等 ,尤其 在 分 布 的 两 个 极端 。 若 原始 分 数 的 分 布 是 正 态 或 近似 
正 态 分 布 , 则 靠近 中 间 的 原始 分 数 比 较 集中 ,但 转换 成 百 分 等 级 后 , 则 表现 出 很 大 的 差异 性 ; 


口 


s5: a ME 


而 对 于 两 个 极端 的 原始 分 数 , 百 分 等 级 则 反应 迟钝 ,即使 原始 分 数 发 生 较 大 的 变化 ,也 不 能 
引起 百 分 等 级 相应 的 变化 ,使 其 差异 被 无 形 地 缩小 了 。 

D 百 分 等 级 只 具有 顺序 性 ,无 法 再 进一步 说 明 不 同 被 试 之 间 分 数 差异 的 具体 数量 
关系 。 

(二 ) 标准 分 数 常 模 

1. 标准 分 数 和 标准 分 数 常 模 

标准 分 数 是 一 种 具有 相等 单位 的 量 数 ,又 称 = 分 数 。 它 是 将 原始 分 数 与 团体 的 平均 数 
之 差 除 以 标准 差 所 得 的 商 数 ,是 按照 分 布 的 标准 差 来 表示 原始 分 数 与 平均 数 的 距离 。 它 是 
一 个 抽象 值 ,不 受 原始 测量 单位 的 影响 。 标 准 分 数 常 模 就 是 用 被 试 所 得 测验 分 数 转换 成 标 
准 分 数 , 来 揭示 其 在 常 模 团体 中 的 相对 地 位 的 组 内 常 模 。 

标准 分 数 是 将 原始 分 数 与 平均 数 的 距离 以 标准 差 为 单位 表示 出 来 的 ,分 子 为 距离 ( 带 实 
际 单位 ) ,分 母 标准 差 也 为 距离 ( 带 实际 单位 ) ,分 子 和 分 母 的 实际 单位 相 除 就 约 掉 了 ,这 样 标 
准 分 数 就 没有 了 实际 单位 。 标 准 分 数 的 计算 公式 为 
X-X 

SD 

在 公式 (2 -1) 中 ,z 为 标准 分 数 ;X 为 原始 分 数 ;X 为 团体 内 所 有 被 试 的 原始 分 数 的 平 
均 数 ;SD 为 团体 内 所 有 被 试 的 原始 分 数 的 标准 差 。 

将 分 数列 {X;} 中 每 一 个 原始 分 数 X; 代入 公式 (2 一 1) ,就 会 获得 对 应 的 标准 分 数 =: M 
表格 形式 将 这 种 对 应 关系 表示 出 来 ,就 可 以 制 成 测验 的 标准 分 数 常 模 表 , 如 表 — 1 所 示 。 

2. 对 标准 分 数 的 评价 

标准 分 数 是 以 一 批 分 数 的 平均 数 为 参照 点 ,以 标准 差 为 单位 的 等 距 量 纲 分 数 。 它 由 符 
号 和 绝对 值 两 部 分 构成 , 既 具 有 可 比 性 ,又 具有 可 加 性 。 正 负 号 表示 原始 分 数 在 平均 数 之 上 
或 之 下 ,绝对 值 表 示 原 始 分 数 与 平均 数 的 距离 。 另 外 , 它 还 具有 以 下 两 个 重要 的 性 质 。 

(1) 标准 分 数 是 最 典型 的 线性 转换 的 分 数 。 标 准 分 数 是 对 原始 分 数 XX 所 作 的 一 个 线性 
变换 , 它 的 分 布 形态 与 原始 分 数 的 分 布 形态 相同 。 若 原始 分 数 不 服从 正 态 分 布 , 则 转换 成 标 
准 分 数 后 ,其 分 布 仍然 不 服从 正 态 分 布 。 

C2) 任何 一 组 原始 分 数 转换 成 标准 分 数 后 ,其 平均 数 为 0, 标准 差 为 1。 我 们 可 以 利用 标 
准 分 数 的 这 个 性 质 , 对 不 同 测验 分 数 进行 比较 。 在 正 态 分 布 中 ,标准 分 数 的 范围 大 概 在 
—4. 00~ +4. 00 之 间 。 

在 实际 应 用 中 ,标准 分 数 是 一 种 令 人 满意 的 导出 分 数 ,但 在 计算 过 程 中 常 出 现 负数 和 小 
数 , 这 样 使 用 起 来 不 方便 。 

3. 正 态 化 的 标准 分 数 

为 了 对 不 同 测验 中 的 分 数 进行 比较 ,我 们 需要 将 原始 分 数 转换 成 导出 分 数 (往往 是 标准 
分 数 ) 。 但 标准 分 数 与 原始 分 数 的 分 布 形态 相同 ,所 以 如 果 两 个 原始 分 数 分 布 形态 不 相同 
时 ,那么 我 们 仍然 无 法 对 这 两 个 测验 分 数 作 直接 的 比较 。 为 了 对 来 源 于 不 同 分 布 的 分 数 进 
行 比较 ,可 以 使 用 非 线 性 转换 ,把 非 正 态 分 布 的 分 数 强 制 性 扭转 成 正 态 分 布 ,这 个 过 程 叫 正 
态 化 。 其 方法 是 : 先 把 每 个 原始 分 数 转换 为 百 分 等 级 ,再 根据 正 态 分 布 表 ( 见 本 书 附 表 ) ,把 
对 应 的 百 分 等 级 直接 看 成 是 正 态 分 布 曲线 下 的 面积 , 找 出 所 对 应 的 = 值 。 图 2-2 为 负 偏 态 
分 布 转换 为 正 态 分 布 的 正 态 化 示意 图 。 


(2-1) 
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图 2-2 负 偏 态 分 布 正 态 化 示意 图 


4. 标准 分 数 的 线性 转换 

标准 分 数 是 以 测验 分 数 的 平均 数 为 参照 点 ,以 标准 差 为 单位 来 衡量 各 原始 分 数 在 其 
常 模 团 体 中 位 置 高 低 的 一 种 地 位 量 数 。 当 原始 分 数 高 于 平均 数 时 ,其 > 值 为 正 ; 当 原 始 分 
数 低 于 平均 数 时 ,其 = 值 为 负 。 因 此 标准 分 数 常常 带 有 小 数 和 出 现 负 值 ,会 给 使 用 带 来 不 
便 , 也 容易 出 错 。 因 此 ,我 们 通常 对 标准 分 数 作 线 性 转换 ,使 负 号 和 小 数 消失 ,全 部 变 为 正 
数 ,其 公式 为 

Z=atbz (22) 

在 公式 (2-2) 中 ,2 为 线性 转换 后 的 标准 分 数 ;a 为 线性 转换 后 的 标准 分 数 的 平均 数 ;6 
为 线性 转换 后 的 标准 分 数 的 标准 差 ;z 为 标准 分 数 。 

常见 的 线性 转换 后 的 标准 分 数 有 以 下 儿 种 。 

(1) MMPI 和 EPQ 的 工分 数 : T=50+10z. 

(2) 卡特 尔 16PF 的 标准 十 分 数 (Zio): Zio =5. 5+1. 5z。 

O 韦 氏 智力 量 表 各 分 测验 的 标准 二 十 分 数 (Zx): Zoo 二 10 十 3z; 韦 氏 智 力量 表 的 智商 
分 数 ( 离 差 智商 ) : IQ 二 100 十 15z。 

(4) 认 知 能 力 测验 的 标准 九 分 数 (2Z,): Zp 一 5 十 2z。 

(5) 美国 大 学 人 学 考试 的 CEEB 分 数 : CEEB 王 500 十 100z。 

(6) 我 国 大 学 英语 四 、 六 级 考试 的 CET 分 数 : CET=500+702, 

(7) 出 国人 员 英 语 水 平 考试 的 EPT 分 数 : EPT=90+20z, 

以 上 介绍 的 几 种 常见 的 线性 转换 后 的 标准 分 数 , 都 是 以 标准 分 数 为 基础 进行 线性 转换 
而 得 到 的 ,具有 以 下 几 个 优点 。 

第 一 ,具有 相等 单位 的 特点 ,便于 进一步 统计 分 析 。 

第 二 ,可 以 利用 正 态 分 布 表 ,将 线性 转换 后 的 标准 分 数 与 百 分 等 级 作 换 算 。 

第 三 ,可 以 运用 线性 转换 后 的 标准 分 数 .将 几 个 测验 上 的 分 数 作 比 较 。 

但 是 ,线性 转换 后 的 标准 分 数 也 有 如 下 缺点 。 

第 一 ,分 数 过 于 抽象 ,不 易 理 解 。 

第 二 ,在 非 正 态 分 布下 ,分 布 形 态 不 同 的 线性 转换 后 的 标准 分 数 ,仍然 不 能 相互 比较 ,也 
不 能 直接 相 加 求 和 。 
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(=) 其 他 导出 分 数 常 模 

1. 标准 九 分 数 

标准 九 分 数 是 将 原始 分 数 分 成 9 个 部 分 的 标准 分 数 。 如 果 原 始 分 数 服 从 正 态 分 布 , 那 
么 它 是 以 0. 5 个 标准 差 为 单位 ,将 正 态 曲线 下 的 横 轴 分 为 9 段 ,最 高 一 端 为 9 分 ,最 低 一 端 
为 工分, 中间 一 端 为 5 分 。 除 两 端 (1 分 .9 分 ) 外 ,标准 九 分 数 横 轴 每 段 均 有 0. 5 个 标准 差 
宽 。 在 正 态 分 布 中 ,每 个 标准 九 分 数 所 占 的 位 置 与 所 包含 面积 的 百分比 如 表 2 -6 所 示 。 


表 2-6 标准 九 分 数 与 正 态 分 布 面积 的 对 应 关系 


o 


标准 九 分 数 本 段 面积 (%) 累加 面积 (%) 本 段 中 值 与 平均 数 距 离 
9 4 100 KF 2.00 
8 7 96 1.50 
7 12 89 1.00 
6 17 77 0. 50 
5 20 60 0. 06 
4 17 40 0. 56 
3 12 23 1.00 
2 7 11 1.5c 
1 4 4 KF 2.00 


如 果 原 始 分 数 服 从 正 态 分 布 , 那 么 只 要 将 原始 分 数 转换 成 百 分 等 级 ,就 可 以 从 表 2 - 6 
中 求 得 被 试 的 标准 九 分 数 。 例 如 , 某 被 试 的 原始 分 数 在 团体 中 处 于 第 77 个 百 分 等 级 ,由 
表 2-6 便 可 推 知 该 被 试 的 标准 九 分 数 为 6。 

2. 几 种 导出 分 数 之 间 的 相互 关系 

CL) 标准 分 数 与 百 分 等 级 之 间 的 相互 关系 。 标 准 分 数 x 值 的 大 小 表示 被 试 的 原始 分 数 
与 团体 平均 水 平 距离 中 含有 z 倍 标准 差 的 距离 。 可 以 通过 = 值 的 大 小 确定 比 它 对 应 的 原始 
分 数 低 的 那些 被 试 人 数 在 常 模 团 体 总 人 数 中 所 占 的 百分比 例 , 这 个 百分比 例 对 应 的 就 是 在 
正 态 曲线 下 以 标准 分 数 = 值 为 分 界 点 的 左 尾 面积 ,如 图 2-3 所 示 。 


0 z 
图 2-3 标准 分 数 z 与 百 分 等 级 P 的 关系 


在 图 2-3 中 , 左 尾 阴影 部 分 的 面积 表示 标准 分 数 > 值 所 处 的 相对 位 置 。 若 阴影 部 分 的 
面积 为 0.75, 则 说 明 比 该 值 原始 分 值 低 的 被 试 占 总 人 数 的 75%。 换 名 话说 ,这 个 被 试 的 
原始 分 数 比 占 总 人 数 25% 的 其 他 被 试 的 分 数 都 要 高 ,其 地 位 处 于 常 模 团 体 中 第 75 个 百 分 等 
级 。 可 见 ,这 个 0.75 实际 上 是 一 种 相对 地 位 量 数 。 在 数量 上 ,标准 分 数 与 百 分 等 级 之 间 存 
在 着 一 定 的 相互 关系 ,其 关系 式 可 表示 为 
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和 
Vin 
例如 ,根据 公式 (2- 3) , 当 > 二 0,P 二 50; 当 > 二 1,P 二 84, 等 等 。 当 然 ,在 实际 应 用 中 ,不 
必要 总 是 通过 公式 来 计算 ,可 以 查阅 由 统计 学 家 编制 的 正 态 分 布 表 ( 见 本 书 附 表 )。 标 准 分 
数 = 与 百 分 等 级 P 之 间 的 关系 ,如 表 2-7 所 示 。 


R2-7 百 分 等 级 与 标准 分 数 的 对 照 表 


2 
eTe (2-3) 


P=100 f 


百 分 等 级 。 标准 分 数 。 百 分 等 级 ”标准 分 数 。 百 分 等 级 ”标准 分 数 。 百 分 等 级 ”标准 分 数 


i — 2.324 26 一 0. 643 51 0.025 76 0. 706 
2 —2. 054 27 —0. 613 52 0. 050 77 0. 739 
3 —1. 881 28 —0. 583 53 0.075 78 0.772 
4 —1.751 29 —0. 553 54 0. 100 79 0. 806 
5 —1. 645 30 —0. 524 55 0. 126 80 0. 842 
6 一 1.555 31 一 0. 496 56 0. 151 81 0. 878 
7 —1. 476 32 —0. 468 57 0.176 82 0.915 
8 —1. 405 33 —0. 440 58 0. 202 83 0. 954 
9 —1. 341 34 —0. 413 59 0. 228 84 0. 995 
10 —1. 282 35 —0. 385 60 0. 253 85 1. 036 
11 —1. 227 36 一 0. 359 61 0.279 86 1. 080 
12 —1.175 37 —0. 332 62 0. 306 87 1.126 
13 —1. 126 38 —0. 306 63 0. 332 88 1.175 
14 —1. 080 39 一 0. 279 64 0. 359 89 1,227 
15 —1. 036 40 一 0. 253 65 0. 385 90 1. 282 
16 一 0.995 41 —0. 228 66 0. 413 91 1. 341 
17 —0. 954 42 一 0. 202 67 0. 440 92 1. 405 
18 一 0.915 43 一 0. 176 68 0. 468 93 1.476 
19 —0. 878 44 一 0. 151 69 0. 496 94 1.555 
20 —0. 842 45 —0. 126 70 0. 524 95 1. 645 
21 —0. 806 46 —0. 100 71 0. 553 96 1.751 
22 —0. 772 47 —0. 075 72 0. 583 97 1. 881 
23 —0. 739 48 —0. 050 73 0. 613 98 2.054 
24 —0. 706 49 —0. 025 74 0. 643 99 2.324 
25 —0. 675 50 0. 000 75 0.675 


(2) 常用 导出 分 数 之 间 的 相互 关系 。 在 心理 测量 中 ,通常 被 试 群体 较 大 ,所 测 特质 的 得 
分 分 布 形态 一 般 都 能 保持 正 态 分 布 或 接近 正 态 分 布 。 根 据 正 态 分 布 的 特点 ,我们 把 上 述 介 
绍 的 标准 分 数 、T 分 数 .CEEB 分 数 、 离 差 IQ, 标 准 九 分 数 、 百 分 等 级 等 常用 导出 分 数 之 间 的 
对 应 关系 综合 在 一 起 加 以 比较 ,形成 了 如 图 2-4 所 示 的 对 应 关系 。 根 据 图 2 - 4, 我 们 可 以 
进一步 认识 上 述 各 种 导出 分 数 之 间 的 相互 关系 。 
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图 2-4 常用 导出 分 数 之 间 的 对 应 关系 


第 三 节 常 模 应 用 

在 心理 测验 中 ,将 被 试 反应 与 标准 答案 相 比 较 而 得 出 的 分 数 , 称 为 原始 分 数 。 但 是 ,原始 
分 数 本 身 并 不 具有 多 大 的 意义 。 只 有 测验 包括 了 意义 明确 的 范围 或 绝对 的 测量 时 (如 反应 时 
的 数值 ) ,原始 分 数 才 具 有 意义 。 原 始 分 数 具 有 不 等 性 和 不 确定 性 , 若 没有 适当 的 参照 标准 , 则 
没有 任何 意义 。 比 如 ,一 位 被 试 在 词汇 测验 中 得 了 45 分 (原始 分 数 ) ,在 数学 推理 测验 中 得 了 
32 分 (原始 分 数 ) ,我 们 能 说 他 的 词汇 好 于 数学 推理 吗 ? 不 同 的 测验 以 不 同 的 单位 来 表达 ,对 这 
种 分 数 的 直接 比较 是 不 可 行 的 。 在 实际 应 用 中 ,需要 有 一 种 明确 规定 的 、 统 一 的 参照 框架 将 原 
始 分 数 转换 ,以 得 到 有 意义 的 、 可 供 解释 的 分 数 。 常 模 是 标准 化 样本 分 数 构成 的 分 布 或 模式 ， 
是 用 来 比较 被 试 得 分 高 低 的 标准 。 因 此 ,心理 测验 的 分 数 通 常 参照 常 模 作出 解释 。 

测验 编制 者 为 了 说 明和 解释 测验 的 结果 ,往往 根据 测验 的 性 质 、 用 途 以 及 所 要 达到 的 测 
量 量 纲 的 水 平 ,按照 统计 学 的 原理 .把 某 一 标准 化 样本 的 原始 分 数 或 测验 分 数 转化 为 具有 一 
定单 位 ,参照 点 和 连续 体 的 常 模 表 。 它 为 测验 使 用 者 提供 了 一 种 方便 易 行 的 由 原始 分 数 向 
导出 分 数 转 化 的 方法 。 这 样 , 被 试 的 测验 分 数 就 可 以 转化 为 具有 相同 单位 的 导出 分 数 , 能 够 
参照 相同 的 或 相近 的 常 模 团 体 在 不 同 测验 中 的 状况 得 以 解释 。 因 此 ,即使 个 体 参 加 多 项 测 
验 ,不 同 测验 的 分 数 也 可 以 进行 相互 比较 。 
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一 、 测 验 分 数 的 比较 与 合成 


(一 ) 测验 分 数 的 比较 

测验 分 数 的 比较 主要 表现 在 两 个 方面 : 一 是 不 同 个 体 间 测验 分 数 的 横向 比较 ;二 是 个 
体 在 不 同时 期 测验 分 数 的 纵向 比较 。 当 我 们 在 比较 测验 分 数 时 ,以 下 几 个 方面 必须 注意 。 

第 一 ,测验 分 数 必 须 参照 特定 的 测验 ,不 能 抽象 地 解释 。 在 报告 智商 或 任何 其 他 分 数 
时 ,应 该 同时 报告 得 出 该 分 数 的 测验 名 称 。 如 果 学 生 的 IQ 成 绩 记录 卡 上 写 的 是 学 生 A 的 
分 数 是 94, 学 生 B 的 分 数 是 110, 而 没有 进一步 的 信息 ,那么 在 这 种 情况 下 ,这 样 的 分 数 是 没 
有 任何 意义 的 。 

第 二 ,测验 常 模 要 具有 可 比 性 。 如 果 测 验 常 模 缺 乏 可 比 性 ,那么 个 体 在 不 同 能 力 上 的 相 
对 位 置 可 能 会 被 错误 指 代 。 例 如 ,我 们 想 在 言语 理解 测验 和 空间 能 力 测验 两 个 领域 上 确定 
该 学 生 的 相对 位 置 。 如 果 言 语 理解 测验 的 标准 化 样本 参考 的 是 中 学 生 的 随机 样本 ,而 空间 
能 力 测验 的 标准 化 样本 参考 的 是 参加 选修 课程 的 经 过 选择 的 学 生 团体 ,那么 测试 者 可 能 就 
会 得 出 该 被 试 的 言语 理解 比 空间 能 力 要 好 得 多 的 结论 ,而 实际 情况 却 可 能 刚好 相反 。 

第 三 ,在 被 试 测验 分 数 的 纵向 比较 中 ,必须 注意 测验 是 否 发 生变 化 。 如 果 一 个 被 试 的 档 
案 卡 上 记录 了 三 个 不 同时 期 (有 可 能 是 一 个 月 内 ) 的 智商 分 数 ,分 别 为 118、115、101, 那 么 在 
解释 这 些 智商 分 数 变化 时 要 问 的 第 一 个 问题 是 “该 学 生 这 三 次 参加 了 什么 测验 ?”IQ 分 数 明 
显 下 降 的 现象 可 能 只 是 反映 测验 本 身 的 差异 而 已 ,因为 个 体 真正 的 IQ 在 短 时 期 内 是 不 会 有 
太 大 变化 的 。 

同一 个 被 试 在 不 同 测验 上 所 得 分 数 之 间 的 系统 差异 ,可 以 归 为 以 下 三 个 原因 。 

第 一 ,尽管 一 些 测验 的 名 称 相同 ,但 测验 的 内 容 却 可 能 不 一 样 。 例 如 ,有 些 智力 测验 仅 
仪 包括 了 语言 能 力 内 容 . 有 些 智力 测验 仅仅 包括 了 空间 能 力 内 容 , 而 另外 一 些 智力 测验 按 大 
约 相等 的 比例 , 既 包括 了 言语 能 力 内 容 ,又 包括 了 空间 能 力 内 容 。 不 同 测验 的 测验 分 数 肯 定 
是 有 差异 的 ,因此 必须 结合 多 项 信息 对 不 同 测验 的 分 数 作出 解释 。 

第 二 ,测验 分 数 的 单位 不 同 ,测验 结果 是 不 可 比较 的 。 如 果 一 个 测验 上 的 IQ 的 标准 差 
为 12 , 另 一 个 测验 上 的 IQ 的 标准 差 为 18 ,平均 分 数 皆 为 100 ,那么 被 试 在 第 一 个 测验 上 得 的 
112 分 就 相当 于 在 第 二 个 测验 上 得 的 118 分 。 

第 三 ,不 同 测验 建立 常 模 所 使 用 的 标准 化 样本 ,有 所 不 同 。 同 一 个 个 体 ,与 能 力 较 低 的 
团体 相 比 所 得 的 分 数 , 要 比 与 能 力 较 高 的 团体 相 比 所 得 的 分 数 ,其 相对 位 置 要 高 一 些 。 

只 要 参照 测验 本 身 或 测验 手册 ,我 们 通常 就 能 够 发 现 测 验 内 容 或 测验 分 数 是 否 具有 可 
比 性 。 然 而 ,各 个 常 模样 本 之 间 的 差异 却 往往 很 容易 被 忽视 ,经 常会 导致 测验 的 结果 不 一 致 
而 无 法 作出 解释 。 

(=) 测验 分 数 的 合成 

前 面 所 介绍 的 分 数 转换 ,是 针对 一 个 测验 分 数 而 言 的 。 然 而 ,在 通常 情况 下 ,这 种 处 理 
单一 测验 分 数 的 情况 相对 少 些 。 我 们 经 常会 面临 的 是 ,需要 将 几 个 测验 分 数组 合 起 来 ,以 获 
得 一 个 总 的 合成 分 数 。 例 如 ,为 了 评价 被 试 智商 水 平 的 高 低 , 需 要 根据 多 项 测验 的 结果 进行 
分 数 整 合 。 测 验 分 数 的 合成 通常 有 三 种 基本 类 型 ,如 下 。 

第 一 ,项 目的 组 合 , 即 由 基本 的 测验 项 目 组 成 一 个 分 测验 或 一 个 测验 。 每 个 测验 都 是 由 许 
多 独立 的 项 目 所 组 成 的 ,这 些 项 目 可 以 通过 结合 成 小 组 的 方式 独立 组 合成 分 量 表 或 分 测验 ,也 
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可 以 直接 将 所 有 的 项 目 得 分 合成 一 个 测验 总 分 。 因 此 ,在 这 种 情况 下 ,总 分 就 是 各 个 项 目 得 分 
的 合成 分 数 。 例 如 ,SCL - 90 是 由 90 个 项 目 组 成 的 ,90 个 项 目 可 以 分 成 10 个 分 测验 ,得 到 10 
个 因子 分 ,也 可 以 不 分 成 10 个 分 测验 ,直接 将 90 个 项 目 得 分 合成 一 个 测验 总 分 。 

第 二 ,分 测验 或 分 量 表 的 组 合 , 即 由 几 个 分 测验 或 分 量 表 的 得 分 合成 分 数 。 对 于 一 些 由 
几 个 分 测验 或 分 量 表 组 成 的 测验 ,我 们 可 以 把 各 个 分 测验 或 分 量 表 的 分 数组 合 到 一 起 ,以 得 
到 一 个 合成 分 数 。 例 如 , 韦 氏 成 人 智力 量 表 由 言语 量 表 与 操作 量 表 两 部 分 组 成 ,其 中 言语 部 
分 包括 6 个 分 测验 ,其 合成 分 数 称 为 言语 智商 ;操作 部 分 包括 5 个 分 测验 ,其 合成 分 数 称 为 
操作 智商 。 同 时 ,还 可 以 将 这 11 个 分 测验 的 分 数 合 成 为 总 智商 。 

第 三 ,测验 或 预测 源 的 组 合 , 即 由 儿 个 测验 或 预测 源 的 得 分 合成 分 数 。 在 作 实 际 决策 
时 ,常常 将 几 个 测验 或 预测 源 同 时 使 用 。 例 如 ,大 学 录取 新 生 . 就 是 将 各 科 测 验 分 数 与 其 他 
分 数 合成 后 ,得 到 合成 分 数 ,并 将 该 合成 分 数 视 作 录取 新 生 的 依据 。 

根据 测量 目的 和 所 采用 资料 的 不 同 , 测 验 分 数 的 合成 的 方法 可 分 为 临床 诊断 法 和 统计 法 。 

1. 临床 诊断 法 

临床 诊断 法 是 一 种 根据 直觉 的 经 验 ,主观 地 将 各 种 因素 加 权 而 获得 结论 或 预测 的 方法 。 
这 就 好 比 临 床 医生 ,把 各 种 化 验 、 检 验 所 获得 的 资料 与 实际 观察 所 得 的 结果 结合 起 来 ,根据 
经 验 作出 诊断 一 样 。 

临床 诊断 法 具有 高 度 的 综合 性 ,能 从 整体 上 考虑 问题 ,充分 考虑 各 测验 所 测 特质 间 的 交互 影 
响 ` 各 测验 上 所 得 分 数 的 对 比 关系 和 各 测验 组 合 类 型 的 结构 特点 等 。 同 时 ,又 具有 灵活 的 针对 性 ， 
能 就 特定 的 个 人 作出 具体 的 结论 。 而 下 面 将 要 介绍 的 统计 法 具有 普遍 性 ,难以 适应 每 个 个 体 所 具 
有 的 独特 性 。 但 是 ,临床 诊断 法 也 存在 一 些 缺 陷 : 一 方面 是 主观 加 权 , 容 易 受到 决策 者 的 偏见 的 
影响 ,不 够 客观 ; 另 一 方面 是 在 合成 分 数 的 过 程 中 ,缺乏 精确 的 数量 指标 作 精 确 的 数量 分 析 。 

2. 统计 法 

测验 分 数 的 合成 的 统计 法 主要 包括 加 权 求 和 法 、 多 重 回归 法 和 多 重 划分 法 。 

(1) 加 权 求 和 法 

采用 加 权 求 和 法 对 测验 分 数 进行 合成 的 条 件 是 : 各 个 测验 所 测 的 特质 间 有 代 偿 作用 ， 
分 数 是 连续 资料 并 且 能 够 同时 获得 。 最 简单 的 加 权 求 和 法 是 单位 加 权 , 就 是 把 各 个 测验 上 
的 得 分 直接 进行 相 加 ,合成 公式 为 

X.=X, +X: + +X, 
在 公式 (2 一 4) 中 ,Xe 为 合成 的 分 数 ;Xi Xost Xa 为 各 测验 的 分 数 。 
另 一 种 情况 是 ,把 所 有 测验 分 数 转换 为 标准 分 数 , 将 变量 作 等 量 加 权 , 加 权 公式 为 
Z.=Z,4+Z,+-+2Z, (2-5) 

在 公式 (2 一 5) 中 ,Z. 为 合成 的 标准 分 数 ;Zi Ze ,…:,2, 为 各 测验 的 标准 分 数 , 该 公式 适 
合 各 测验 对 预测 效 标 具 有 同等 重要 性 的 情况 。 

但 在 通常 情况 下 ,各 个 测验 对 预测 效 标的 作用 可 能 是 不 相同 的 。 因 此 ,要 根据 各 个 测验 
与 效 标 之 间 的 经 验 关系 作 差异 加 权 , 其 通 式 为 

Z.=W,Z,+W,Z,+-+W,Z, (2-6) 

在 公式 (2 一 6) 中 ,Wi Wee W, 为 加 权 系数 ;Z. ,Zi ,2Z:，… Z, 的 意义 同 公式 (2 一 5)。 

(2) 多 重 回 归 法 

在 很 多 情况 下 ,需要 根据 个 体 在 成 套 测验 上 的 各 个 测验 分 数 来 预测 他 的 效 标 分 数 ,如 根 


(2-4) 
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据 某 个 被 试 在 言语 测验 .数字 测验 .推理 测验 上 的 分 数 预测 他 解决 某 项 问题 的 能 力 水 平 。 此 
时 ,就 需要 利用 多 重 回归 法 分 析 效 标 分 数 与 预测 源 分 数 之 间 的 数量 关系 。 

多 重 回归 法 是 一 种 研究 事物 或 现象 与 其 他 多 种 事物 或 现象 在 数量 上 相互 联系 的 统计 方 
法 ,其 基本 方程 式 为 


Y=atb Xı +b: Xs 二 bX, (2-7) 


在 公式 (2 - 7) 中 ,Y 表 示 效 标 分 数 ; Xi Xot X, 表示 各 个 预测 源 分 数 ;b oe oy K 
示 各 个 预测 源 分 数 的 加 权 数 ;a 表示 常数 ,用 来 校正 预测 源 分 数 与 效 标 分 数 平均 数 的 差异 。 

计算 回归 方程 的 具体 技术 ,读者 可 以 参阅 相关 的 统计 学 教材 。 回 归 方程 实质 上 是 根据 
每 个 预测 源 与 效 标的 相关 ,以 及 各 预测 源 之 间 的 相关 而 获得 的 ,但 要 注意 两 点 ; 一 是 采用 多 
重 回归 法 对 测验 分 数 进行 合成 ,应 该 选用 最 佳 的 预测 源 , 即 选 出 能 使 R? 的 数值 增加 最 多 , 且 
与 效 标 相关 最 高 的 变量 ,这样 才 能 达到 最 高 的 预测 性 ;二 是 多 重 回归 法 采用 的 是 统计 线性 模 
型 ,因此 只 有 当 预 测 源 与 效 标 间 是 线性 关系 时 才 适 合 , 同 时 还 要 求 预 测 源 分 数 和 效 标 分 数 都 
是 连续 性 资料 , 且 能 同时 获得 ,车 这 些 条 件 不 能 满足 , 则 不 宜 采 用 多 重 回归 法 。 

(3) 多 重 划 分 法 

采用 加 权 求 和 法 对 测验 分 数 进行 合成 ,所 测 特质 之 间 应 该 具有 某 种 程度 的 代 偿 性 。 但 
在 实际 生活 中 ,有 些 所 测 的 特质 是 不 能 相互 补偿 的 。 例 如 ,招收 飞行 员 , 任 何 一 项 检查 不 合 
格 者 都 不 能 被 录取 。 多 重 划 分 法 就 是 在 各 个 特质 上 都 确定 一 个 标准 ,把 每 个 测验 分 数 划 分 
为 合格 与 不 合格 两 类 ,并 以 此 来 判断 测验 结果 的 方法 。 只 有 每 个 测验 分 数 都 合格 了 ,总 要 求 
才 算 合格 。 如 果 被 试 在 一 个 测验 中 得 分 低 于 规定 的 分 数 线 , 那 么 尽管 他 在 之 前 的 测验 上 都 
取得 了 很 高 的 分 数 , 他 同样 也 不 能 算 合格 。 例 如 ,研究 生 入 学 考试 ,英语 、 政 治 、 专 业 课 和 总 
分 都 必须 过 关 , 才 算 过 关 。 

在 测验 实施 过 程 中 , 施 测 者 把 所 有 组 成 这 一 测验 的 分 测验 按 一 定 的 顺序 排列 起 来 逐一 
实施 。 其 中 ,最 有 效 的 测验 放 在 前 面 , 紧 接 着 为 第 二 有 效 的 测验 ,依次 类 推 。 只 有 通过 了 前 
一 个 测验 ,才能 继续 实施 后 一 个 测验 。 当 被 试 在 某 一 个 测验 上 被 确认 为 不 合格 时 ,测验 立即 
被 终止 ,被 试 被 判 为 不 合格 。 因 此 ,被 试 要 想得到 完全 合格 的 结果 ,就 必须 使 各 个 测验 上 的 
分 数 均 达到 规定 值 。 由 于 成 功 的 被 试 必须 越过 一 连 串 测验 的 栅栏 ,因此 这 种 方法 也 叫 * 连 续 
栅栏 法 ”, 是 多 重 划 分 法 的 具体 形态 。 例 如 ,汽车 驾照 考试 ,只 有 通过 了 科目 1, 才 能 考 科目 
2。 同 理 , 只 有 通过 了 科目 1 和 科目 2, 才 能 考 科 目 3, 等 等 。 

采用 多 重 划 分 法 ,被 试 只 存在 两 种 选择 结果 : 要 么 被 接受 ,要 么 被 拒绝 。 因 此 ,在 那些 
通过 栅栏 ,最 终 被 接受 的 被 试 中 ,相互 之 间 并 没有 好 坏 优 劣 之 分 ,体现 不 出 被 试 之 间 的 差异 
性 。 如 果 想 要 进一步 区 分 他 们 之 间 的 差异 ,那么 就 必须 同时 采用 其 他 的 方法 。 

以 上 介绍 了 几 种 常用 的 测验 分 数 的 合成 的 方法 。 在 实际 运用 中 ,必须 注意 各 种 测验 分 
数 的 合成 的 方法 的 使 用 范围 ,以 便 合理 使 用 。 必 要 时 ,可 将 几 种 方法 结合 起 来 ,并 考虑 实际 
情况 ,制定 出 效果 最 佳 且 经 济 实惠 的 合成 方案 。 


二 、 PAGER AREER CHAE 


根据 样本 大 小 和 来 源 的 不 同 , 常 模 可 分 为 全 国 常 模 、 区 域 常 模 和 特殊 常 模 。 
制定 全 国 常 模 非常 不 易 , 常 模 的 样本 应 该 足够 大 ,以 提供 稳定 的 数值 。 全 国 常 模 被 试 的 
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抽样 比较 复杂 ,要 涉及 不 同 的 群体 ,如 不 同性 别 、 年 龄 .地 区 、 职 业 等 的 被 坛 。 一 般 来 说 ,要 提 
供 一 个 可 供 比 较 的 、 确 有 代表 性 的 全 国 常 模 , 是 相对 困难 的 。 区 域 常 模 通常 是 由 测验 使 用 者 
在 特定 背景 下 建立 的 。 区 域 常 模 所 使 用 的 团体 及 规定 的 范围 都 要 比 全 国 常 模 小 得 多 ,如 大 
学 可 以 根据 自己 的 学 生 总 体 来 建立 区 域 常 模 。 对 于 许多 测验 目的 ,如 预测 工作 成 绩 、 比 较 儿 
童 在 不 同学 科 的 相对 成 就 ,或 者 测量 个 体 随 时 间 的 进步 等 ,使 用 一 些 区 域 常 模 往 往 比 使 用 全 
国 常 模 更 适合 。 如 此 看 来 ,区 域 常 模 是 全 国 常 模 的 必要 的 有益 的 补充 。 

我 们 需要 注意 的 是 , 常 模 是 直接 针对 所 使 用 的 被 试 样本 来 建立 的 。 即 便 是 全 国 常 模 ,取样 
也 可 能 仍然 有 偏差 ,只 不 过 是 其 代表 性 比较 广泛 而 已 。 通 常 ,样本 的 容量 越 大 ,取得 的 常 模 越 
可 靠 。 然 而 ,样本 大 而 无 代表 性 也 不 好 。 一 般 地 ,全 国 常 模 的 人 数 范围 ,一 般 以 2 000 一 3 000 人 
为 宜 。 常 模 的 使 用 范围 取决 于 取样 的 范围 。 若 从 全 国 取样 , 则 所 得 的 常 模 是 全 国 的 ,可 以 在 全 
国 范围 内 使 用 ; 若 从 地 区 取样 , 则 所 得 的 常 模 是 地 区 的 ,不 能 随意 使 用 于 其 他 地 区 。 区 域 常 模 
的 主要 优点 是 ,能 使 个 体 与 最 相近 的 团体 作 比 较 。 一 般 来 说 ,如 果 一 个 测验 既 有 区 域 常 模 又 有 
全 国 常 模 ,那么 用 区 域 常 模 作 解 释 , 信 度 、 效 度 会 更 高 。 另 外 ,在 对 测验 结果 作 解 释 时 ,如 果 被 
试 与 常 模样 本 不 贴切 ,那么 在 解释 测验 结果 时 一 定 要 声明 , 且 作 判断 时 应 持 保 留 的 态度 。 

对 于 大 多 数 测验 来 说 ,常常 会 出 现 常 模 的 非 等 价 问题 , 即 需要 测试 一 些 特殊 的 群体 , 建 
立 针 对 某 一 特殊 群体 的 常 模 , 这 称 之 为 特殊 常 模 。 大 多 数 测验 都 有 针对 代表 性 样本 而 建立 
的 普通 常 模 , 但 样本 并 非 针 对 特殊 人 群 。 普 通常 模 的 样本 对 于 犯法 者 ,心理 障碍 者 、 智 力 落 
后 者 盲人、 特殊 职业 者 等 特殊 群体 ,都 不 具有 代表 性 。 因 此 ,对 特殊 被 试 测验 结果 的 解释 不 
能 以 普通 常 模 为 依据 。 解 决 的 办 法 是 ,根据 所 规定 的 小 范围 总 体 , 建 立新 的 .适合 某 一 特殊 
群体 的 特殊 常 模 。 


三 、 轿 定 参照 组 和 测验 分 数 等 值 


因为 常 模 所 包含 的 测验 分 数 关系 ,总 是 包含 具体 测验 在 具体 被 试 样本 上 的 测验 关系 ,所 
以 我 们 在 解释 测验 结果 时 ,一 定 要 针对 它们 才能 作出 正确 的 解释 。 和 否则 ,不 同 的 测验 分 数 就 
不 能 直接 加 以 比较 。 但 是 ,也 有 一 些 测验 使 用 固定 参照 组 ,不 提供 测验 分 数 的 常 模 评 价 , 目 
的 是 保证 分 数 具有 可 比 性 和 连续 性 。 在 使 用 这 种 测验 时 ,分 数 解释 需要 参照 从 总 体 中 独立 
建立 的 固定 样本 。 

按照 固定 参照 组 编制 测验 的 最 早 实 例 之 一 , 便 是 美国 大 学 入 学 考试 委员 会 的 学 术 能 力 
倾向 测验 (Scholastic Aptitude Test,SAT)。 在 20 世纪 初 , 该 测验 首次 实施 时 ,SAT 分 数 是 
根据 常 模 来 表示 的 , 即 根据 每 次 施 测 参加 测验 的 考生 的 平均 数 和 标准 差 来 表示 的 。 但 是 ,由 
于 大 学 入 学 考试 的 数目 和 种 类 逐年 增加 ,以 及 考生 总 体 组 成 的 变化 ,考生 的 分 数 就 取决 于 特 
定年 份 期 间 参 加 测验 的 团体 的 属性 ,这 就 使 测验 的 连续 性 难以 得 到 保持 。 为 此 ,1941 年 以 
后 ,所 有 SAT 分 数 都 是 根据 1941 年 参加 测验 的 大 约 11 000 名 考生 的 平均 数 和 标准 差 来 表 
示 的 。 这 些 考生 的 分 数 就 成 了 固定 参照 组 ,后 来 编制 的 测验 的 分 数 解释 及 比较 都 需要 使 
用 它 。 

为 了 能 够 把 任何 形式 测验 上 的 原始 分 数 ,都 转换 成 固定 参照 组 的 分 数 , 行 之 有 效 的 解决 
办 法 是 ,采用 一 定 的 测量 技术 ,将 不 同 测验 上 的 分 数 作出 等 值 转换 。 这 样 ,就 可 以 在 另 一 测 
验 另 一 被 试 样本 上 进行 解释 了 。 这 种 等 值 转换 的 链条 可 能 会 跨越 多 个 测验 和 多 个 被 试 样 
本 。 使 用 固定 参照 组 和 测验 分 数 等 值 的 做 法 ,为 比较 不 同年 度 被 试 分 数 作出 有 关 决 策 , 提 供 
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了 统一 的 参照 系 。 但 即便 如 此 ,分 数 也 还 是 针对 具体 形式 和 具体 被 试 团体 作出 的 ,本 质 上 仍 
然 是 相对 的 。 


本 章 主要 逆 述 了 常 模 团体 、 常 模 类 型 ,以 及 常 模 应 用 。 学 习 本 章 有 助 于 了 解 常 模 对 心理 
测验 的 重要 性 ,理解 常 模 的 概念 、 常 模 团 体 的 注意 事项 及 条 件 、 常 模 的 类 型 及 常用 导出 分 数 
之 间 的 相互 关系 ,掌握 各 种 测验 分 数 的 合成 的 方法 等 。 本 章 的 重点 是 理解 常 模 这 个 基本 概 
念 ,难点 是 掌握 如 何 对 常 模 进行 应 用 。 本 章 的 中 心 概念 是 “ 常 模 团 体 ”。 


一 、 选 择 题 ( 不 定 项 选择 题 ,至 少 有 一 个 选项 是 正确 的 ) 


1. 常见 的 标准 分 数 有 € ) 
A. 工分 数 B. 比率 智商 C. 标准 九 分 数 D. 离 差 智商 
ZK ) 按 月 份 显 示 了 儿童 在 运动 水 平 、 适 应 性 .语言 .社会 性 等 行为 领域 中 所 达到 的 
大 致 发 展 水 平 。 ( ) 
A. 比 内 一 西蒙 智力 量 表 B. 韦 氏 智力 量 表 
C. 格 塞 尔 发 展 顺序 表 D. 瑞 文 推理 测验 
Bie ) 是 测验 分 数 的 合成 的 方法 。 ( ) 


A. 临床 诊断 法 B. 加 权 求 和 法 C. 多 重 回归 法 D. 多 重 划 分 法 

4. 全 国 常 模 的 人 数 范围 ,一 般 以 ( ) 为 宜 。 ( ) 
A. 1000~2 000 A B. 2000~3 000 A 
C. 3000~4 000 A D. 4000~5 000 A 

5. 从 总 体 中 取样 时 ,每 个 个 案 被 抽取 的 机 会 均等 ,这 称 为 ( ) 
A. 随机 取样 方法 的 原则 B. 非 随 机 取样 方法 的 原则 
C. 系统 取样 方法 的 原则 D. 非 系统 取样 方法 的 原则 

6. 关于 标准 分 数 的 描述 ,正确 的 是 ( ) 
A. 标准 分 数 是 最 典型 的 线性 转换 的 分 数 
B. 标准 分 数 是 最 典型 的 非 线性 转换 的 分 数 
C. 标准 分 数 的 计算 公式 中 的 SD 为 样本 标准 差 
D. 标准 分 数 的 计算 公式 中 的 SD 为 样本 方差 

7. (  ) 可 以 作为 常 模 团体 。 E à 
A. 想 要 施 测 的 对 象 群体 
B. 具有 某 种 共同 特征 的 人 所 组 成 的 一 个 群体 
C. 任何 一 个 有 一 定 组 织 结构 的 群体 
D. 具有 某 种 共同 特征 的 人 所 组 成 的 群体 的 一 个 样本 

8. 将 原始 分 数 转化 为 百 分 等 级 ,再 将 百 分 等 级 转化 为 正 态 分 布 上 对 应 的 = 值 , 这 叫 作 

( ) 过 程 。 ( ) 

A. 线性 转换 B. 正 态 化 C. 方差 分 析 D. 项 目 分 析 
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9. 凡是 平均 数 为 (  ) ,标准 差 为 10 的 ,一 概 称 为 了 分数 。 € J 
A. 50 B. 60 C. 80 D. 100 
10. 先 将 目标 总 体 按 某 种 变量 (如 年 龄 ) 分 成 若干 层次 ,再 从 各 层次 中 随机 抽取 若干 被 
试 , 最 后 把 各 层 的 被 试 组 合成 常 模样 本 的 方法 ,是 ( ) 确 定常 模 的 方法 。 ¢ 3 


A. 简单 随机 抽样 B. 系统 抽样 C. 分 层 抽样 D. 分 组 抽样 
11. 最 直观 的 发 展 常 模 是 € J 


A. 离 差 智商 B. 心理 年 龄 
C. 发 展 顺序 量 表 D. 智力 年 龄 

12. 在 建立 常 模 过 程 中 ,要 在 测验 全 体 对 象 中 选择 有 代表 性 的 一 部 分 人 , 称 为 (  ) 
A. 总 体 B. 样本 C. 标准 化 样本 D. 群体 

13. 组 内 常 模 主 要 包括 ( ) 


A. 顺 序 常 模 B. 年 级 常 模 C 百 分 等 级 常 模 D. 标准 分 数 常 模 

14. 常 模 团体 的 条 件 包括 ¢ 3 
A. 和 群体 构成 的 界限 必须 明确 
B. 常 模 团体 必须 是 所 测 群体 的 一 个 代表 性 样本 
C. 样本 大 小 要 适当 
D. 常 模 团 体 必须 是 近 时 的 

15. 常见 的 随机 取样 方法 不 包括 C 4 
A. 简单 随机 抽样 B. 系统 抽样 C. 分 层 抽样 D. 方便 抽样 

16. Z 二 a 十 bx, 式 中 Z 为 线性 转换 后 的 标准 分 数 ,a 为 根据 需要 指定 的 常数 。 加 上 一 


个 常数 是 为 了 去 掉 ( ) , 乘 以 一 个 常数 是 为 了 使 单位 变 小 从 而 去 掉 小 数 点 。 ( ) 
A. 整数 B. 小 数 C. 负 值 D. 分 值 
17. IQ=100+15z 是 ( ) 的 计算 公式 。 ( ) 
A. 比率 智商 B. 标准 分 数 C. 标准 差 D. 离 差 智商 
18. 韦 氏 智力 量 表 各 分 测验 的 量 表 分 的 平均 数 为 10, 标 准 差 为 ( ) 
A. 17 B. 15 S 型 Ds 
19. 百 分 等 级 为 55 的 分 数 表 示 在 常 模样 本 中 有 55% 的 人 比 这 个 分 数 ( ) 
A. 低 B. 相等 C. 高 D. 以 上 都 不 正确 
20. 样本 大 小 要 适当 的 关键 是 样本 要 有 ( ) 
AL 代表 性 B. 特殊 性 C. 相关 性 D. 可 比 性 
21. 当 原 始 分 数 不 是 正 态 分 布 时 ,也 可 以 使 之 正 态 化 ,这 一 转换 过 程 是 ( ) 
A. 线性 的 B. 非 线性 的 C. 强制 的 D. 非 强 制 的 
二 、 简 答题 


1. 简 述 常 模 团体 的 注意 事项 及 条 件 。 

2. 常见 的 发 展 常 模 包括 哪些 ? 常见 的 组 内 常 模 包 括 哪些 ? 试 比较 发 展 常 模 与 组 内 常 
模 的 优 缺 点 。 

3. 试 比较 百 分 等 级 常 模 与 标准 分 数 常 模 的 优 缺 点 。 

4. 测验 分 数 的 合成 的 方法 主要 包括 哪些 ? 简 述 它们 各 自 的 适用 条 件 。 
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Bom 信 度 


心理 测验 通常 测量 的 是 人 的 行为 .但 行为 会 由 于 各 种 各 样 的 原因 , 因 时 、 因 事 、 因 地 而 产 
生变 化 。 这 些 因素 有 些 是 偶然 的 ,有 些 是 固有 的 ,人 在 完成 心理 测验 时 的 行为 也 会 受 上 述 
素 的 影响 ,从 而 使 测验 结果 与 真实 结果 不 完全 一 致 。 我 们 通常 用 “信和 度 ” 来 衡量 测量 的 可 靠 
性 和 稳定 性 。 


第 一 节 信和 度 定义 


一 、 信 和 度 的 基本 定义 


信 度 是 用 来 评价 测量 结果 可 靠 性 、 稳 定性 的 指标 。 在 我 们 使 用 测验 时 ,如 果 使 用 同一 测 
验 或 者 使 用 两 个 不 同 项 目的 等 值 测验 ,对 同一 组 被 试 实施 两 次 测验 所 得 分 数 不 一 致 ,那么 我 
们 就 会 很 自然 地 怀疑 ,测验 是 不 是 不 稳定 ,不 可 靠 。 事实 上 ,也 确实 如 此 。 比 如 ,一 个 智力 测 
验 , 今 天 测 某 被 试 的 结果 是 120 分 ,过 几 天 测 结 果 是 50 分 ,那么 这 个 测验 结果 就 非常 不 稳 
定 。 一 个 好 的 测验 ,测验 结果 应 该 是 稳定 的 .可靠 的 。 也 就 是 说 ,如 果 被 试 的 心理 特质 是 相 
对 稳定 的 ,那么 使 用 同一 测验 或 者 使 用 两 个 不 同 项 目的 等 值 测验 ,对 同一 组 被 试 实施 两 次 测 
验 所 得 分 数 应 该 是 一 致 的 。 若 不 一 致 , 则 说 明 测 验 受 无 关 因素 或 偶然 因素 的 影响 很 大 。 这 
些 无 关 因 素 或 偶然 因素 包括 被 试 的 紧张 .焦虑 .疲劳 等 心理 和 生理 因素 ,也 包括 评分 者 的 主 
观 因素 等 。 任 何 一 个 测验 或 多 或 少 总 会 受到 一 些 无 关 因 素 或 偶然 因素 的 影响 。 但 是 ,一 个 
好 的 测验 应 该 是 受到 无 关 因素 或 偶然 因素 影响 较 小 的 测验 ,否则 它 就 失去 了 作为 客观 性 测 
量 工 具 的 价值 。 下 面 我 们 从 测量 学 的 角度 对 信和 度 的 这 一 内 涵 加 以 说 明 。 

理解 信和 度 的 定义 首先 要 理解 测量 分 数 的 构成 。 从 理论 上 讲 ,每 个 被 试 在 测量 中 所 获得 
的 观察 分 数 可 以 分 为 两 部 分 : 一 部 分 是 真 分 数 , 即 被 测量 的 事物 的 真实 规模 (如 智商 的 高 
低 、 能 力 的 强 弱 等 ) 的 取 值 ; 另 一 部 分 是 随机 误差 分 数 。 它 们 的 关系 可 以 用 下 式 来 表达 : 

天 一 工 十 及 G= 

公式 (3 - 1) 表示 的 是 经 典 测验 理论 的 数学 模型 。 在 公式 (3 - 1) 中 ,X 表示 观察 分 数 
(observed score); T 表示 真 分 数 (true score) ;下 表示 随机 误差 分 数 (error score) 。 

经 典 测验 理论 的 三 个 基本 假设 如 下 。 

假设 一 : 观察 分 数 等 于 真 分 数 与 随机 误差 分 数 之 和 , 即 X=T+E. 

假设 二 : 在 所 讨论 的 问题 范围 内 , 真 分 数 不 变 , 亦 即 个 体 具 有 恒定 的 特质 ,在 短期 内 不 
会 发 生 改 变 , 即 工 是 恒定 的 。 

假设 三 : 随机 误差 分 数 是 完全 随机 的 ,并 服从 均值 为 零 的 正 态 分 布 , 且 与 真 分 数 相互 独 
立 , 即 下 是 完全 随机 的 。 

根据 经 典 测验 理论 的 三 个 基本 假设 ,我 们 可 以 引申 出 三 个 相关 推论 ,如 下 。 
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推论 一 : 若 一 个 人 的 某 种 心理 特质 可 以 用 平行 测验 反复 测量 足够 多 次 , 则 其 观察 分 数 
的 平均 值 会 接近 于 真 分 数 , 即 ECX) 一 T 或 忆 CE) 一 0。 

推论 二 : 真 分 数 与 随机 误差 分 数 之 问 的 相关 为 零 , 即 ~ 一 0 或 rzr 一 0。 

推论 三 : 各 平行 测验 上 的 随机 误差 分 数 之 间 的 相关 为 零 , 即 re 一 0。 

其 中 ,推论 一 意 在 说 明 已 是 个 服从 均值 为 零 的 正 态 分 布 的 随机 变量 ;推论 二 和 推论 三 意 
在 说 明 玉 是 个 随机 误差 ,没有 包含 系统 误差 在 内 。 

在 一 次 测量 中 , 若 观察 分 数 和 真 分 数 相差 较 大 , 则 测量 结果 的 信 度 就 低 。 若 观察 分 数 和 
真 分 数 相差 较 小 , 则 测量 结果 的 信 度 就 高 。 但 是 ,在 实际 的 一 次 测量 中 ,因为 我 们 并 不 能 事 
先知 晓 真 分 数 和 随机 误差 分 数 , 所 以 没有 办 法 直接 套用 公式 (3 - 1) 来 估计 测量 的 信 度 。 

心理 测量 中 所 说 的 信 度 ,是 对 一 组 人 的 测量 结果 或 对 一 个 人 多 次 测量 结果 而 言 的 ,那么 
随机 误差 分 数 也 是 对 一 组 人 或 一 个 人 多 次 测量 的 观察 分 数 与 真 分 数 之 差 而 言 的 。 在 一 组 测 
量 分 数 中 ,如 果 随 机 误差 分 数 是 随机 产生 的 , 且 与 真 分 数 的 大 小 无 关 , 那 么 观察 分 数 、 真 分 数 
和 随机 误差 分 数 的 方差 关系 可 以 用 下 式 来 表达 : 

S =S} +S (3-2) 

在 公式 (3 -2) 中 ,SY 表示 观察 分 数 方差 ;S# 表示 真 分 数 方差 ;SE 表示 随机 误差 分 数 方 
差 。 若 真 分 数 方差 在 观察 分 数 方差 所 占 的 比重 大 , 则 说 明 测量 的 信 度 高 ,否则 ,就 说 明 测量 
的 信 度 低 。 若 用 rxx 表示 测量 的 信 度 , 则 


r=% G33) 
公式 (3 - 3) 被 称 为 信 度 的 基本 定义 。 可 以 用 图 来 表示 公式 (3 - 3) 的 观察 分 数 方差 、 真 
分 数 方差 .随机 误差 分 数 方差 与 测量 的 信 度 的 关系 ,如 图 3 — 1 所 示 。 


s S: 


| St Si 


St 
(b) 


图 3-1 Si 的 比重 与 测量 的 信 度 的 关系 


在 图 3-1(a) 中 ,S# 所 占 比重 较 小 ,测量 的 信和 度 低 ,而 在 图 3-1(b) 中 ,S# 所 占 比重 较 
大 ,测量 的 信 度 高 。 
结合 公式 (3 -2) ,可 以 将 公式 (3 - 3) 进一步 变换 为 
守 _S 一 和 |， Ss 
人 
使 用 公式 (3 -4) ,也 可 以 估计 测量 的 信 度 。 
在 实际 测量 中 ,主要 是 用 信 度 系数 来 说 明 测量 的 信 度 。 因 此 , 信 度 ~xx 亦 可 称 为 信 度 


(3-4) 
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信和 度 是 衡量 一 个 测验 质量 高 低 的 重要 指标 。 它 的 作用 表现 如 下 。 

第 一 ,反映 测量 过 程 中 所 存在 的 随机 误差 的 大 小 ,有 效 地 评价 一 份 测验 的 可 靠 性 程度 。 
如 果 测 量 的 信 度 低 , 那 么 测量 的 随机 误差 就 大 ,测验 的 结果 就 不 可 靠 。 

第 二 ,用 来 解释 个 人 测验 分 数 的 意义 。 因 为 在 测量 过 程 中 存在 随机 误差 的 影响 ,所 以 每 
个 人 的 测验 分 数 都 会 与 真 分 数 有 或 多 或 少 的 偏差 ,那么 就 有 必要 对 真 分 数 的 实际 取 值 作 估 
计 。 信 度 描述 了 测量 过 程 中 所 存在 的 随机 误差 的 大 小 ,因此 信 度 可 以 用 于 估计 真 分 数 的 实 
际 取 值 。 

从 理论 上 讲 , 一 个 人 的 真 分 数 本 来 是 用 同一 个 测验 对 他 反复 施 测 所 得 的 平均 值 , 其 误 
差 则 是 这 些 实测 值 的 标准 差 。 然 而 ,这 种 做 法 是 行 不 通 的 。 因 此 ,我 们 可 以 用 同一 个 群体 
(人 数 足 够 多 ) 两 次 施 测 的 结果 来 代替 对 同一 个 人 反复 进行 施 测 的 结果 ,以 估计 测量 误差 
的 变异 数 。 

此 时 ,每 个 人 两 次 测量 的 分 数 之 差 可 以 构成 一 个 新 的 分 布 , 这 个 分 布 的 标准 差 就 是 测量 
的 标准 误 (standard errors of measurement)。 它 是 测量 中 误差 大 小 的 客观 指标 ,有 了 这 一 指 
标 , 我 们 就 可 以 对 团体 中 任何 一 个 人 的 测验 成 绩 作 出 恰当 的 解释 ( 即 能 通过 区 间 估 计 的 办 法 
指出 测量 的 精度 ) 。 测 量 的 标准 误 可 用 下 式 计算 : 

SE=Sx VI 一 mx (3-5) 

在 公式 (3-5) 中 ,SE 表示 测量 的 标准 误 ;Sx 表示 观察 分 数 的 标准 差 ;rxx 表示 测量 的 
信和 度 。 

信 度 是 指 测量 结果 的 可 靠 性 和 稳定 性 。 若 能 用 同一 测量 工具 反复 测量 某 人 或 某 群 体 的 
同一 种 心理 特质 , 则 其 多 次 测量 的 结果 间 的 一 致 性 程度 可 称 作 信 度 。 巾 于 系统 误差 是 恒定 
不 变 的 ,而 随机 误差 是 随机 且 不 恒定 的 ,因此 信 度 只 会 受到 随机 误差 的 影响 ,而 不 会 受到 系 
统 误差 的 影响 。 

一 般 来 说 ,一 个 好 的 测量 工具 必须 具有 较 高 的 信和 度 。 也 就 是 说 ,一 个 好 的 测量 工具 ,只 
要 遵守 操作 规则 ,其 结果 就 不 应 随 着 工具 的 使 用 者 或 使 用 时 间 等 变化 而 发 生 较 大 的 变化 。 
例如 ,标准 的 钢 尺 是 测量 长 度 的 一 种 好 工具 ,只 要 操作 方法 得 当 , 无 论 何 时 何人 去 测量 同一 
张 桌子 的 高 度 ,其 结果 就 会 基本 一 致 ,这 说 明 这 种 测量 的 信和 度 较 高 。 不 过 ,如 果 所 用 的 是 一 
种 具有 较 大 弹性 的 皮 尺 ,那么 不 同 的 人 或 同一 个 人 在 不 同 的 时 间 去 测量 同一 张 桌子 的 高 度 ， 
其 结果 必然 会 有 较 大 的 差异 ,这 说 明 这 种 测量 的 信 度 不 高 。 

当然 ,心理 测量 比 物理 测量 要 复杂 些 ,我 们 不 太 可 能 用 同一 种 测量 工具 去 反复 测量 一 个 
人 的 同一 种 心理 特质 。 例 如 , 某 一 数学 测验 就 不 能 反复 使 用 在 同一 批 人 身上 ,否则 测量 结果 
必然 会 越 测 越 好 。 因 此 .信和 度 的 定义 还 应 寻求 更 加 实际 的 一 些 方法 。 


二 、 信 和 度 的 其 他 定义 


如 前 所 述 ,我 们 给 出 了 信 度 的 基本 定义 。 但 是 ,除了 上 述 信 度 的 基本 定义 (这 里 指 信 度 
的 定义 中 ) 外 ,实际 上 还 存在 男 外 两 种 其 他 的 信 度 的 等 价 定义 , 即 定义 @@ 和 定义 @。 为 方便 
说 明 ,我 们 把 定义 四 一 @ 都 给 出 ,如 下 。 

定义 四 : 信 度 是 一 个 被 测 团体 的 真 分 数 方差 与 观察 分 数 方差 之 比 , 即 


S 
rex = Gr (3-3) 
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定义 @: 信和 度 是 一 个 被 测 团体 的 真 分 数 与 观察 分 数 相关 系数 的 平方 , 即 
rxx = rir G6) 

CMO: 信 度 是 一 个 测验 XA) 与 它 的 任意 一 个 “平行 测验 ”X“ (BE) 的 相关 系 

数 , 即 
rxx 一 JRX C37) 

公式 (3 -6) 表 示 信 度 的 定义 加 ,公式 (3 -7) 表 示 信 度 的 定义 @@。 其 中 ,公式 (3 一 6) 的 
rxr 表 示 信 度 指 数 ,从 这 个 公式 可 知 , 信 度 系数 是 信 度 指数 的 平方 。 

一 般 地 , 真 分 数 是 测量 的 测 查 对 象 ,是 研究 者 欲 获得 的 ,但 却 是 事先 无 法 获知 的 。 因 此 ， 
定义 和 定义 @@ 只 具有 理论 意义 ,是 一 个 理论 上 构想 的 概念 ,在 实际 中 根本 不 可 操作 。 只 有 
定义 @ 才 具有 实际 意义 ,可 操作 ,即便 事先 不 知晓 真 分 数 ,也 可 以 用 来 估计 测量 的 信和 度 。 基 
于 这 些 ,我 们 可 以 理解 为 : 

信 度 定义 中 一 理论 定义 一 一 不 可 操作 

信 度 定义 四 一 一 理论 定义 一 一 不 可 操作 

信 度 定义 @@ 一 一 操作 定义 一 一 可 操作 

我 们 可 以 证 明 信 度 三 个 定义 公式 的 等 价 性 , 即 定义 中 三 定义 加 = 定义 国 。 这 表明 ,只 有 
定义 图 是 可 以 操作 的 , 且 与 定义 中 和 定义 回 等 价 。 

如 此 看 来 ,要 想 估计 测量 的 信 度 ,只 有 构建 两 个 “平行 测验 ”, 并 求 出 它们 的 相关 系数 来 
获取 ,这 是 唯一 可 操作 的 办 法 ,是 由 定义 加 告诉 我 们 的 。 因 此 ,定义 加 为 我 们 估计 测量 的 信 
度 指 明了 方向 , 即 为 了 估计 测量 的 信 度 ,我 们 不 得 不 构建 两 个 “平行 测验 ”, 这 凸显 出 “平行 测 
验 ” 这 个 概念 是 非常 重要 的 。 为 了 方便 表达 "平行 测验 ”这 个 概念 的 此 种 重要 性 ,信和 度 的 表示 
符号 干脆 就 被 定义 为 rxx ,其 基本 含义 就 不 言 而 喻 了 ! 


第 二 节 信和 度 估 计 


由 上 可 知 ,要 估计 出 测量 的 信 度 ,说 到 底 就 是 要 构建 出 两 个 “平行 测验 ”, 并 求 出 两 个 “ 平 
行 测验 " 间 的 相关 系数 。 围 绕 着 如 何 构建 两 个 “平行 测验 ”, 形 式 是 很 多 的 。 根 据 形式 上 的 不 
同 ,可 以 分 成 以 下 几 种 。 


一 、 重 测 信 度 


(一 ) 重 测 信 度 的 定义 

重 测 信 度 是 指 用 同一 个 测验 对 同一 组 被 试 施 测 两 次 所 得 结果 的 一 致 性 程度 。 许 多 心理 
特质 具有 一 定 的 稳定 性 ,如 兴趣 .性 格 等 。 既 然 所 测 对 象 是 稳定 的 ,那么 同一 个 测验 对 同一 
组 被 试 施 测 两 次 所 得 结果 就 应 该 是 相同 的 或 相近 的 。 若 两 次 测量 的 结果 相差 较 大 , 则 意味 
着 测量 的 信 度 较 低 。 

(=) 重 测 信 度 的 使 用 条 件 

使 用 重 测 信和 度 有 以 下 两 个 前 提 条 件 。 

(1) 所 测 的 心理 特质 必须 是 稳定 的 。 如 果 本 来 所 测 的 心理 特质 不 稳定 ,那么 对 于 所 得 
测量 结果 的 不 稳定 可 能 是 被 试 水 平 变化 带 来 的 ,并 不 能 说 明 测量 工具 是 否 稳 定 。 如 学 业 成 
绩 测验 ,经 过 一 段 时 间 的 学 习 后 :学生 的 学 业 成 绩 会 有 所 增长 ,用 重 测 信 度 评价 测验 稳定 性 
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就 不 合适 了 。 这 也 意味 着 , 重 测 信 度 要 求 在 两 次 施 测 的 间隔 时 间 内 ,被 试 在 所 要 测 查 的 心理 
特质 方面 没有 获得 更 多 的 学 习 或 训练 。 

(2) 练习 和 遗忘 的 效应 基本 上 相互 抵消 。 同 一 组 被 试 两 次 做 同一 个 测验 ,会 发 生 练 习 
效应 ,但 只 要 两 次 测量 间隔 的 时 间 合 适 ,那么 在 第 二 次 做 这 个 测验 时 ,学 会 的 东西 就 可 能 会 
遗忘 掉 。 两 次 测量 间隔 多 长 时 间 较 为 合适 ,要 根据 问题 的 性 质 和 测量 的 目的 而 定 。 另 外 , 速 
度 测验 比 难度 测验 练习 效应 更 低 ,更 适合 用 重 测 信和 度 。 

(三 ) 重 测 信 度 的 计算 方法 

重 测 信 度 的 计算 方法 是 : 计算 同一 组 被 试 在 两 次 测验 上 所 得 分 数 的 皮尔 逊 (Pearson) 积 
差 相关 系数 ,其 具体 的 计算 公式 为 


DK;— KY,—Y) 
rxy (3 -8a) 


of a-r Y-Y 
nD X(t RD YD 


rxy (3-8b) 
an DX? — DE fa OY? — YD? 

在 公式 (3 -8a) 中 ,rw 表示 积 差 相关 系数 ;X; 表示 不 同 被 试 在 X 测验 上 的 观察 分 数 ;Y; 
表示 不 同 被 试 在 Y 测验 上 的 观察 分 数 ;X 表示 XX 测验 所 有 被 试 观察 分 数 的 平均 分 :7 表示 也 
测验 所 有 被 试 观察 分 数 的 平均 分 。 

在 公式 (3- 8b) 中 ,X? 表示 不 同 被 试 在 X 测验 上 的 观察 分 数 的 平方 ;Y? 表示 不 同 被 试 
HE Y 测验 上 的 观察 分 数 的 平方 ;n 表示 被 试 人 数 ; 其 他 表示 符号 意义 同 公式 (3 -— Ba). 

例 3-1 10 名 被 试 接受 了 某 测 验 的 测试 ,分 数 记 为 Xi 。 为 了 考察 该 测验 的 信和 度 , 两 个 
星期 后 ,对 这 10 名 被 试 重新 测试 了 一 次 .分数 记 为 Yi ,如 表 3- 1 所 示 。 根 据 两 次 测试 的 结 
果 , 问 该 测验 的 重 测 信 度 是 多 少 ? 

fe: (1) 将 测验 成 绩 列 入 表 中 ,并 求 出 所 需 的 统计 量 , 也 列 入 表 中 。 


表 3-1 10 名 被 试 接受 了 某 测验 两 次 测试 的 成 绩 


被 试 X; Y; xX: w XY, 
i 74 82 5476 6724 6 068 
2 71 75 5041 5625 5325 
3 80 81 6 400 6561 6 480 
4 85 89 7225 7921 7565 
5 76 82 5776 6724 6 232 
6 77 89 5929 7921 6 853 
T 77 88 5929 7744 6776 
8 68 84 4624 7056 5712 
9 74 80 5476 6 400 5 920 
10 74 87 5476 7569 6 438 

R 756 837 57 352 70 245 63 369 


(2) 将 计算 出 的 各 统计 量 代 入 公式 (3 一 8b) 中 ,得 
10X63 369 一 756X837 
10X57 352 一 7565 /10 X70 245—8377 

(四 ) 对 重 测 信 度 的 评价 

优点 : 容易 理解 平行 测验 的 含义 ,一 个 测验 测 两 次 ,题目 完全 平行 ;能 够 提供 测验 随时 
间 而 变化 的 资料 。 

缺点 : 有 练习 效应 和 记忆 效应 ;时 间 间 隔 难 以 把 握 ,要 根据 问题 的 性 质 和 测验 目的 
而 定 。 


二 、 复 本 信 度 


(一 ) 复 本 信 度 的 定义 

为 了 克服 重 测 信 度 有 练习 效应 和 记忆 效应 的 缺点 ,可 以 使 用 不 同 题目 进行 两 次 测量 , 即 采 用 复 
本 形式 ,如 某 考试 的 A 卷 和 B 卷 施 测 同一 批 被 坛 。 复 本 信 度 指 的 是 两 个 平行 测验 测量 同一 批 被 试 所 
得 结果 的 一 致 性 程度 。 所 谓 平行 测验 ,是 在 题目 内 容 \ 数 量 、 形 式 、 难 度 、 区 分 度 ,指导 语 \ 时 限 以 及 所 
用 的 例题 ,公式 等 各 方面 都 相同 或 相似 的 两 个 测验 。 平 行 测验 用 不 同 的 题目 测量 同样 的 内 容 而 且 测 
验 结果 的 平均 值 和 标准 差 都 要 相同 。 显 然 ,要 获得 严格 意义 上 的 平行 测验 是 非常 困难 的 。 但 是 ,如 
果 当 编制 测验 时 ,在 测验 题目 内 容 ,数量 等 各 项 指标 上 精心 加 以 匹配 ,那么 所 获得 的 大 体 平行 的 测验 
在 实际 中 也 是 可 行 的 。 

复 本 信 度 根据 两 次 测验 时 间 间 隔 的 长 短 可 分 为 等 值 性 系数 和 等 值 稳定 性 系数 。 等 值 性 
系数 是 两 个 平行 测验 ,在 最 短 的 时 距 内 ,测量 同一 批 被 试 所 得 结果 的 一 致 性 程度 。 等 值 性 系 
数 主要 反映 两 个 平行 测验 题目 间 的 差别 所 带 来 的 变异 。 等 值 稳定 性 系数 是 两 个 平行 测验 ， 
相距 一 段 时 间 后 ,测量 同一 批 被 试 所 得 结果 的 一 致 性 程度 。 因 为 相隔 了 一 段 时 间 , 所 以 等 值 
稳定 性 系数 不 仅 反映 了 两 个 平行 测验 题目 间 的 差别 所 带 来 的 变异 ,还 反映 了 两 次 施 测 时 的 
情境 、 被 试 特质 水 平等 方面 的 差别 所 带 来 的 变异 。 

(=) 复 本 信 度 的 使 用 条 件 

计算 复 本 信 度 的 第 一 个 条 件 是 要 构造 出 两 份 真 正 的 平行 测验 (如 A、B 卷 )。 那 么 ,什么 
样 的 测验 才能 算是 真正 平行 的 呢 ? 如 上 所 述 ,平行 测验 之 间 必 须 在 题目 内 容 、 数 量 、 形 式 、 难 
度 、 区 分 度 、 指 导语 时限 以 及 所 用 的 例题 ,公式 等 各 方面 都 相同 或 相似 。 换 句 话 说 ,平行 测 
验 就 是 那 种 用 不 同 的 题目 测量 同样 的 内 容 , 而 且 其 测验 结果 的 平均 值 和 标准 差 都 应 该 相同 。 
显然 ,严格 的 平行 测验 是 很 难 构造 出 来 的 。 

计算 复 本 信 度 的 第 二 个 条 件 是 被 试 要 具备 条 件 接受 两 个 平行 测验 。 被 试 要 具备 条 件 接 
受 两 个 平行 测验 ,是 指 被 试 接受 两 个 平行 测验 在 时 间 场所、 经 费 等 各 个 条 件 方面 是 可 行 的 。 

(三 ) 复 本 信 度 的 计算 方法 

复 本 信 度 的 计算 方法 是 : 计算 同一 组 被 试 在 两 个 平行 测验 上 所 得 分 数 的 皮尔 逊 
(Pearson) 积 差 相关 系数 ,其 具体 的 计算 公式 同 公式 (3 - 8a) 或 公式 (3 一 8b) 。 

例 3-2 有 A 和 B 两 份 平行 测验 ,10 名 被 试 先 接受 了 测验 A 的 测试 ,分 数 记 为 Xi ,后 
接受 了 测验 B 的 测试 ,分 数 记 为 Y; ,如 表 3 一 2 所 示 , 求 这 两 份 平行 测验 的 复 本 信 度 。 

解 : (1) 将 测验 成 绩 列 入 表 中 ,并 求 出 所 需 的 统计 量 ,也 列表 中 。 
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RI-2 10 名 被 试 测验 A 和 测验 B 的 测试 成 绩 


被 试 Xi( 测 验 AD Y; (测验 B) X} Yi Xi; 
1 8 9 64 81 72 
2 10 10 100 100 100 
3 9 10 81 100 90 
4 6 6 36 36 36 
5 10 10 100 100 100 
6 7 8 49 64 56 
7 5 4 25 16 20 
8 7 8 49 64 56 
9 9 9 81 81 81 

10 4 4 16 16 16 

5 75 78 601 658 627 


(2) 将 计算 出 的 各 统计 量 代 入 公式 (3 一 8b) 中 ,得 


10X627 一 75X78 
rxy= =0. 96 
10 X601—75* V10 X658—78 


(四 ) 对 复 本 信 度 的 评价 
优点 : 能 够 在 一 定 程度 上 克服 练习 效应 和 记忆 效应 。 
缺点 : 复 本 难以 构建 ;开发 题目 成 本 提高 ; 仍 存在 时 间 间 隔 的 问题 。 


三 、 同 质 性 信和 度 


重 测 信和 度 和 复 本 信 度 这 两 种 信和 度 估计 方法 ,都 要 求 对 被 试 施 测 两 次 才能 估计 出 信 度 系 
数 ,这 在 实际 操作 中 有 一 定 难度 ,因为 被 试 可 能 有 流动 ,或 者 被 试 不 愿意 接受 两 次 测试 。 另 
外 , 复 本 信 度 要 求 的 平行 测验 ,也 是 不 容易 获得 的 。 同 质 性 信和 度 则 不 同 , 它 只 要 测试 一 次 。 
重 测 信和 度 和 复 本 信和 度 主 要 考察 测验 跨 时 间 的 一 致 性 (稳定 性 ) 和 跨 形 式 的 一 致 性 (等 值 性 )， 
而 同 质 性 信 度 主要 反映 的 是 题目 之 间 的 关系 ,因此 又 称 为 内 部 一 致 性 信和 度 ,表示 测验 能 够 测 
量 相同 的 内 容 或 特质 的 程度 。 

(一 ) 同 质 性 信 度 的 定义 

同 质 性 信 度 是 指 测验 内 部 所 有 题目 间 的 一 致 性 程度 。 在 本 书 中 ,题目 (item) ,又 称 为 项 
目 、 条 目 、 试 题 或 测 题 。 题 目 间 的 一 致 性 程度 有 两 层 意思 : 一 是 所 有 题目 测 的 是 同一 种 特 
质 ;二 是 所 有 题目 得 分 之 间 都 具有 和 较 高 的 正 相 关 。 也 就 是 说 , 同 质 性 信 度 是 评价 一 个 测验 所 
测 内 容 或 特质 的 相同 程度 。 若 测验 同 质 性 信 度 高 , 则 说 明 测 验 测量 的 是 某 一 个 心理 特质 , 测 
验 结果 就 是 该 特质 水 平 的 反映 ; 若 测验 同 质 性 信 度 低 , 则 说 明 测验 测量 了 多 个 特质 ,测验 结 
果 不 好 解释 。 一 个 好 的 办 法 是 将 测验 分 解 成 多 个 具有 同 质 性 的 分 测验 ,得 到 被 试 在 每 个 分 
测验 上 的 得 分 ,再 进行 解释 。 

(> 同 质 性 信 度 的 使 用 条 件 

值得 注意 的 是 ,一些 表面 上 看 起 来 是 测量 同一 种 心理 特质 的 题目 . 若 题目 间 不 具有 较 高 
的 正 相 关 , 则 不 能 认为 它们 具有 同 质 性 。 这 就 是 说 ,测量 单一 特性 是 同 质 性 高 的 必要 条 件 ， 
而 非 充分 条 件 。 反 过 来 , 同 质 性 高 才 是 测验 测 得 单一 特质 的 充分 条 件 。 我 们 讨论 同 质 性 信 
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度 的 目的 就 在 于 判断 一 个 测验 是 否 测 到 单一 特质 ,以 及 估计 所 测 特质 的 一 致 性 程度 。 

(=) 同 质 性 信 度 的 计算 方法 

估计 同 质 性 信 度 的 主要 方法 如 下 。 

1. 分 半 信 度 

分 半 信 度 是 指 将 一 个 测验 分 成 对 等 的 两 半 后 ,所 有 被 试 在 这 两 半 上 所 得 分 数 的 一 致 性 程度 。 
分 半 信 度 反映 了 测验 两 部 分 的 一 致 性 ,属于 同 质 性 信 度 。 也 可 以 把 对 等 的 两 半 测 验 看 成 在 最 短 时 
距 内 施 测 的 两 个 平行 测验 。 因 此 ,可 以 将 分 半 信 度 看 作 与 等 值 性 系数 一 样 ,进行 解释 。 

计算 分 半 信 度 先 要 将 测验 分 成 对 等 的 两 半 , 具 体 方法 包括 按 题目 的 奇偶 分 半 、 按 题目 的 难 
度 分 半 、 按 题目 的 内 容 分 半 , 等 等 。 不 同 的 分 半 方 法 计算 出 的 分 半 信 度 是 不 一 样 的 。 因 此 ,在 
报告 分 半 信 度 时 要 说 明 分 半 的 方法 。 若 测验 不 能 分 成 对 等 的 两 半 , 则 不 能 使 用 分 半 信 度 。 

分 半 信 度 的 计算 方法 是 计算 两 个 “ 半 份 测验 "得 分 的 皮尔 逊 (Pearson) 积 差 相 关系 数 ,其 
具体 的 计算 公式 同 公式 (3 - 8a) 或 公式 (3 - 8b) 。 但 是 ,* 半 份 测验 ”的 题目 量 减 少 了 ,会 低估 
整 份 测验 的 信 度 ,必须 用 斯 皮尔 曼 一 布朗 (Spearman 一 Brown) 公 式 加 以 校正 , 即 


_ 2rm pe 
a (3-9) 


在 公式 (3 -9) 中 ,rxx 为 整个 测验 的 信 度 系数 ;rw 为 两 个 “ 半 份 测验 ”得 分 的 相关 系数 。 

例 3-3 一 个 测验 有 60 个 题目 ,10 名 被 试 接受 了 该 测验 的 测试 ,将 测验 题目 按 奇偶 分 
半 , 并 计算 每 名 被 试 奇数 题 的 得 分 (用 X; 表示 ) 和 偶数 题 的 得 分 (用 YY; 表示 ) ,如 表 3- 3 所 
示 。 问 该 测验 的 同 质 性 信和 度 是 多 少 ? 

解 : (1) 将 每 名 被 试 的 奇数 题 得 分 和 偶数 题 得 分 列 和 人 表 中 ,并 求 出 所 需 的 统计 量 , 也 列 
AR 


表 3-3 10 名 被 试 在 一 个 测验 上 题目 奇偶 分 半 的 得 分 成 绩 


被 斌 LARD 。 Yi( 偶 数 题 ) x} Y: XM, 
1 38 37 1444 1369 1406 
2 37 37 1369 1369 1369 
3 38 36 1444 1296 1 368 
4 41 39 1681 1521 1599 
5 40 39 1600 1521 1560 
6 36 34 1296 1156 1224 
7 38 38 1444 1444 1444 
8 39 39 1521 1521 1521 
9 40 39 1600 1521 1560 
10 35 36 1225 1296 1260 

x 382 374 14 624 14014 14 311 


(2) 将 计算 出 的 各 统计 量 代 入 公式 (3 一 8b) 中 ,得 
10X14 311—382X374 
10X14 624—382 V10X14 014—3747 
(3) 将 ra RAARG -9) 中 进行 校正 ,得 
x — 2 一 2X0.84 
1+rm 1+0.84 
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2. 库 得 尔 一 理 查 森 信 度 
库 得 尔 一 理 查 森 信和 度 (KuderRichardson reliability, KR) ,适用 于 测验 题目 全 部 为 二 分 
记分 题 的 测验 的 同 质 性 信 度 分 析 。 库 得 尔 一 理 查 森 信 度 公式 有 好 几 个 ,其 中 最 常用 的 是 
rey, 公式 和 rer, 公式 ,如 下 。 
(1) re, 公式: 
bis -Ri -aR (3-10) 
在 公式 (3 — 10) 中 ,re。 为 整个 测验 的 信 度 系数 ;K 为 测验 题目 数 ; 为 各 题 正确 反应 人 数 占 
总 人 数 的 百分数 ;d 为 各 题 错误 反应 人 数 占 总 人 数 的 百分数 ;S? 为 每 名 被 试 所 得 总 分 的 方差 。 
(2) r, AÑ: 
en =1—9:8XX(K—X) 
a KS 
在 公式 (3 - 11) 中 ,run。 为 整个 测验 的 信 度 系数 ;X 为 每 名 被 试 所 得 总 分 的 平均 数 ;K 为 
测验 题目 数 ;S? 为 每 名 被 试 所 得 总 分 的 方差 。 
例 3-4 某 份 测验 的 8 道 题 均 为 0、1 记分 题 (答对 得 1 分 , 答 错 得 0 分 ) ,对 10 名 被 试 
进行 测试 后 ,结果 如 表 3 -4 所 示 , 试 估计 测验 的 同 质 性 信 度 。 
解 : (1) 将 测验 成 绩 列 人 表 中 ,并 求 出 所 需 的 统计 量 ,也 列 和 人 表 中 。 


表 3-4 10 名 被 试 在 8 道 题目 上 的 测试 成 绩 


(3-11) 


ga B 
被 试 >} 
1 2 3 4 5 6 7 8 
1 0 0 0 0 0 0 0 1 1 
2 0 0 0 0 1 0 0 1 2 
3 0 1 1 1 0 0 0 0 3 
4 0 0 0 0 0 1 1 1 3 
5 0 0 1 1 0 0 1 0 3 
6 0 0 0 0 0 1 1 1 3 
7 1 0 0 0 1 1 1 1 5 
8 0 0 0 0 1 1 1 1 4 
9 0 0 1 1 1 0 1 1 5 
10 1 1 1 1 1 1 1 1 8 
» 2 2 4 4 5 5 7 8 X=3.7 
p 0.2 0.2 0.4 0.4 0.5 0.5 0.7 0.8 S?=3.41 
q 0.8 0.8 0.6 0.6 0.5 0.5 0.3 0.2 K=8 
pq 0.16 0.16 0.24 0.24 0.25 0.25 0.21 0.16 >) pg =1.67 


(2) 将 计算 出 的 各 统计 量 代入 公式 (3 一 10) 中 ,得 


=S f R 
raa =el eal 0.58 

(3) 将 计算 出 的 各 统计 量 代入 公式 (3 -11) 中 ,得 
1_0.8X3.7X(8 一 3.7) 

8X3. 41 
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可 见 , 用 rer, 公式 计算 的 信 度 系数 与 rkr,, 公式 计算 的 信和 度 系数 ,结果 差不多 。 

3. 克 龙 巴赫 a 系数 

1951 年 , 克 龙 巴赫 (L. J. Cronbach) 提 出 了 用 a 系数 来 计算 测验 的 同 质 性 信 度 。 克 龙 巴赫 a 
系数 适用 于 测验 题 型 较 多 且 并 非 都 是 二 分 记分 题 的 测验 的 同 质 性 信 度 分 析 , 其 计算 公式 为 


eg (3-12) 

在 公式 (3 一 12) 中 ,a 为 整个 测验 的 信和 度 系数 ;K 为 测验 题目 数 ; SP 为 每 道 题 被 试 得 分 的 
方差 ;S? 为 每 名 被 试 所 得 总 分 的 方差 。 

BL 3-5 某 份 测验 有 4 道 论文 题 ,对 5 名 被 试 进行 施 测 ,所 得 数据 如 表 3 一 5 所 示 , 试 估 
计 测 验 的 同 质 性 信 度 。 

解 : (1) 将 测验 成 绩 列 人 表 中 ,并 求 出 所 需 的 统计 量 , 也 列 人 表 中 。 


表 3-5 4 道 论文 题 对 5 名 被 试 施 测 的 成 绩 


1 2 6 3 6 6 3.04 
2 1 4 2 3 4 1.36 
3 1 5 1 3 4 2.56 
4 3 6 1 3 3 2.56 

es 7 21 7 15 17 9.52 31. 04 


__K Ds 4 py 3.0441, 36 +2, 56 +2. 56 
st [ 31.04 ] 


(四 ) 对 同 质 性 信 度 的 评价 

优点 : 仅 需 一 次 测量 ;能 够 克服 练习 效应 和 记忆 效应 。 

缺点 :只 可 在 测量 单一 概念 的 测验 上 使 用 ;不 太 适 合 速度 测验 (Speeded tests) ,容易 高 
估 速 度 测验 的 信 度 ;分 半 信 度 的 分 半 形 式 有 时 难以 确定 。 

以 上 介绍 了 多 种 测量 的 信 度 ,包括 重 测 信 度 、 复 本 信和 度 和 同 质 性 信 度 。 那 么 ,一 个 测验 
的 信 度 要 多 大 才能 认为 测验 可 靠 呢 ? 这 不 能 一 概 而 论 , 要 视 具体 测验 而 定 。 就 测验 内 容 而 
言 ,标准化 学 业 成 绩 测验 一 般 要 求 信 度 系数 在 0.90 以 上 , 常 要 求 达到 0. 95 以 上 。 标 准 化 智 
力 测验 的 信和 度 系数 一 般 应 达到 0. 85 以 上 。 个 性 与 兴趣 测验 的 信和 度 系数 可 稍 低 ,一 般 应 达到 
0.70~0. 80。 如 果 我 们 只 是 想 比较 两 个 群体 之 间 在 测验 上 的 得 分 是 否 存 在 显著 性 差异 , 那 
么 信 度 系数 只 要 达到 0. 60 一 0. 70, 就 可 以 了 。 


四 、 评 分 者 信和 度 


(一 ) 评分 者 信 度 的 定义 
评分 者 信和 度 是 指 多 个 评分 者 给 同一 批 人 的 答卷 或 表现 进行 评分 的 一 致 性 程度 。 当 评分 
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者 人 数 为 两 个 时 ,评分 者 信 度 等 于 两 个 评分 者 给 同一 批 被 试 的 答卷 或 表现 所 给 分 数 的 相关 
系数 (如 积 差 相关 或 等 级 相关 )。 当 评分 者 人 数 多 于 两 个 时 ,评分 者 信 度 等 于 多 个 评分 者 给 
同一 批 被 试 的 答卷 或 表现 所 给 分 数 的 相关 系数 (如 肯 德 尔 和 谐 系 数 ) 。 

(=) 评分 者 信 度 的 使 用 条 件 

显然 ,不 同类 型 的 信 度 在 误差 变异 中 所 包含 的 因素 有 所 不 同 , 有 时 误差 变异 是 时 间 的 波 
动 ,有 时 是 平行 测验 之 间 的 变异 ,而 有 时 则 是 项 目 间 的 不 一 致 性 。 不 过 ,现在 大 多 数 测验 都 
能 提供 标准 化 的 施 测 和 评分 的 程序 ,以 至 于 这 些 因素 造 成 的 误差 变异 得 以 降低 ,甚至 可 以 忽 
略 不 计 。 而 对 于 一 些 计算 机 评分 的 团体 测验 ,也 只 需要 仔细 遵照 和 认真 检查 所 规定 的 程序 
就 可 以 了 。 但 是 ,对 于 一 些 无 法 完全 客观 评分 ,在 评分 时 可 能 会 摊 杂 有 主观 判断 成 分 的 测验 
来 说 ,评分 者 之 间 的 变异 也 属于 误差 来 源 之 一 ,这 就 需要 对 评分 者 信和 度 进行 度量 。 在 心理 测 
量 中 ,客观 题 的 评分 很 少 出 现 误差 (如 机 器 阅卷 ) ,但 主观 题 的 评分 会 因 评 分 者 不 同 而 出 现 误 
差 ,因此 提高 评分 者 信 度 是 心理 测量 的 重要 任务 之 一 。 

三 ) 评分 者 信 度 的 计算 方法 

(1) 当 评 分 者 人 数 为 2 时 ,评分 者 信和 度 可 以 用 皮尔 逊 (Pearson) 积 差 相关 系数 或 斯 皮尔 
曼 (Spearman) 等 级 相关 系数 来 进行 估计 。 皮 尔 逊 积 差 相关 系数 的 具体 的 计算 公式 可 参考 公 
式 (3- 8a) 或 公式 (3-8b) ,而 斯 皮尔 曼 等 级 相关 系数 的 具体 的 计算 公式 可 参考 相关 的 统计 
学 教材 ,限于 篇 幅 , 在 此 就 不 再 介绍 。 

(2) 当 评 分 者 人 数 大 于 2 时 , 若 评分 中 没有 相同 等 级 出 现 , 则 评分 者 信 度 可 以 用 肯 德 尔 
和 谐 系数 来 进行 估计 ,其 公式 为 


Sie fee 2R a 
w= “Lasoo C313) 
12 

在 公式 (3 一 13) 中 ,W 为 肯 德 尔 和 谐 系数 ,K 为 评分 者 的 人 数 ; N 为 被 评分 对 象 的 人 数 ; 
R, 为 第 ; 个 被 评分 对 象 被 评 的 水 平等 级 。 

例 3-6 4 位 评委 ( 赵 . 钱 . 孙 . 李 ) 对 5 篇 学 生 毕 业 论文 进行 等 级 评定 ,结果 如 表 3 -6 所 
示 , 试 计算 这 些 评委 的 评分 者 信 度 。 

表 3-6 4 位 评委 对 5 篇 学 生 毕 业 论文 评定 的 等 级 


‘ 评委 (K 一 4) 
wees R R 
(N=5) 赵 钱 孙 李 

一 2 1 2 6 36 
= 3 1 2 1 7 49 
= 5 3 3 4 15 225 
4 5 4 5 18 324 
五 2 4 5 3 14 196 
> 60 830 


口 


sce og Em 


解 : 这 是 多 列 等 级 变量 求 取 一 致 性 , 需 使 用 肯 德 尔 和 谐 系数 来 估计 评分 者 信 度 ,将 有 关 
数据 代入 公式 (3- 13) ,得 
DR? 一 ae 830 — 50 


Ww 2 0. 69 


Lisce 1 2 3 
pe NN) Be X=5) 
(3) 当 评 分 者 人 数 多 于 两 个 时 , 若 评 分 中 有 相同 等 级 出 现 , 则 评分 者 信 度 需要 使 用 校正 
的 肯 德 尔 和 谐 系 数 来 进行 估计 ,其 公式 为 


(PR): 
De 
W= (3-14) 
Tias K» (Ba —n) 
tok CN — N) 12 
在 公式 (3 一 14) 中 ,n 为 相同 等 级 的 个 数 , 其 他 表示 符号 与 肯 德 尔 和 谐 系数 公式 (3 - 13) 


中 的 含义 相同 。 
例 3-7 5 名 裁判 对 6 名 跳水 运动 员 的 跳水 表现 进行 等 级 评定 ,其 结果 如 表 3-7 所 示 ， 
试 计算 这 些 裁判 的 评分 者 信 度 。 
表 3-7 5 名 裁判 对 6 名 跳水 运动 员 的 跳水 表现 评定 的 等 级 


ae =5 

跳水 运动 员 裁判 (K 一 5) a 

Wao 1 2 3 4 5 

A 4 5 5 3.5 4 21.5 462.25 
B 1 1 2 1.5 1 6.5 42.25 
ë 2.5 2 2 1.5 2 10 100 
D 6 5 4 5 5 25 625 
E 2.5 3 2 3.5 3 14 196 
F 5 5 6 6 6 28 784 
x 105 2209.5 


解 : 在 本 例 中 出 现 了 相同 等 级 ,需要 使 用 校正 的 肯 德 尔 和 谐 系数 来 估计 评分 者 信 度 ,将 
有 关 数 据 代 入 公式 (3 - 14) ,得 


5 Do- #2 33-3, 3—3, 2—2, 2—2 
P 12 12 12 12 12 12 


CSR)? 2 
Dr- 2 209, 5—1 
w 0.91 
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(四 ) 对 评分 者 信 度 的 评价 

优点 :适用 于 主观 评分 的 测验 ,可 以 考察 评分 者 评定 的 一 致 性 。 

缺点 :使 用 肯 德 尔 和 谐 系数 计算 评分 者 信和 度 可 能 存在 信息 损失 。 

五 、 小 结 

下 面 对 上 述 所 讨论 的 不 同类 型 信 度 作 一 小 结 , 如 表 3 -8 和 表 3- 9 所 示 。 
表 3-8 不 同类 型 信 度 .所 需 的 复 本 数目 与 所 需 的 施 测 次 数 的 关系 


所 需 的 复 本 数目 
所 需 的 施 测 次 数 
1 2 
分 半 信 度 
库 得 尔 一 理 查 森 信 度 
HREH a 系数 复 本 信 度 (连续 施 测 ) 
评分 者 信 度 
重 测 信 度 复 本 信 度 (间隔 施 测 ) 


根据 表 3 — 8 可 知 ,不 同类 型 信和 度 、 所 需 的 复 本 数目 与 所 需 的 施 测 次 数 有 一 定 的 关系 。 
这 表明 ,不 同类 型 信 度 估计 所 需 的 复 本 数目 和 施 测 次 数 可 能 存在 不 同 。 这 提示 ,我 们 在 选择 
信 度 类 型 时 ,应 该 考虑 到 实际 所 需 的 复 本 数目 和 施 测 次 数 。 
表 3-9 不 同类 型 信和 度 的 误差 变异 来 源 


信 度 类 型 误差 变异 来 源 
重 测 信 度 时 间 取 样 
复 本 信 度 (连续 施 测 ) 内 容 取样 
复 本 信 度 (间隔 施 测 ) 时 间 与 内 容 取样 
分 半 信 度 内 容 取样 
库 得 尔 一 理 查 森 信 度 、 克 龙 巴 赫 a 系数 内 容 异 质 性 
评分 者 信 度 评分 者 之 间 差 异 


根据 表 3 -9 可 知 ,不 同类 型 信和 度 的 误差 变异 来 源 存 在 不 同 ,这 直接 影响 到 信和 度 估 
计 值 的 高 低 。 在 一 般 情 况 下 ,间隔 施 测 获 得 的 复 本 信 度 值 往往 最 低 , 因 为 很 多 因素 有 机 
会 影响 到 测验 分 数 。 相 反 ,校正 过 的 分 半 信 度 ,因为 影响 因素 相对 较 少 ,所 得 的 信和 度 估 
计 值 往往 最 高 。 

根据 表 3 — 9 也 可 知 ,有 多 少 种 误差 来 源 , 就 有 多 少 种 信和 度 类 型 。 一 个 测验 哪 种 误差 变 
异 来 源 大 ,我 们 就 应 该 对 哪 种 误差 变异 来 源 进行 有 效 估 计 。 有 时 ,一 个 测验 需要 同时 使 用 几 
种 信 度 系数 ,这 样 我 们 就 不 得 不 把 总 变异 分 解 为 不 同 的 变异 来 源 。 
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第 三 节 ”信和 度 影响 因素 


一 、 影 响 测量 的 信和 度 的 主要 因素 


影响 测量 的 信 度 的 主要 因素 是 随机 误差 ,而 产生 随机 误差 是 多 方面 的 ,主要 包括 以 下 几 
个 方面 。 

(一 ) 被 试 样本 特征 

被 试 样本 特征 是 影响 测量 的 信 度 的 一 个 重要 因素 。 被 试 样本 特征 的 影响 分 为 被 试 样本 
团体 异 质 性 的 影响 和 被 试 样本 团体 平均 能 力 水 平 的 影响 。 

第 一 ,被 试 样本 团体 异 质 性 的 影响 。 被 试 样本 团体 异 质 性 越 强 (大 ) ,分 数 分 布 就 越 分 
散 ,分 数 变异 就 越 大 ,相关 系数 就 越 大 。 例 如 ,一 个 班 上 ,只 有 “白痴 "和 “天 才 ” 两 人 ,两 次 对 
他 们 施 测 ,“ 天 才 ” 的 分 数 都 高 于 “白痴 "分数 的 可 能 性 很 大 ,这 反映 了 测验 的 稳定 性 。 另 一 个 
班 上 ,只 有 “ 半 斤 " 和 * 八 两 "两 人 ,两 次 对 他 们 施 测 , 有 可 能 一 次 是 “ 半 斤 ” 分 数 高 , 另 一 次 是 
“ 八 两 ”分数 高 ,这 反映 了 测验 的 不 稳定 性 。 若 被 试 样本 团体 异 质 性 强 ( 大 ), 则 随机 误差 就 
小 。 相 反 , 若 被 试 样本 团体 同 质 性 强 ( 大 ), 则 随机 误差 就 大 。 若 被 试 样本 团体 异 质 性 越 强 
(大 ), 则 这 个 测验 分 数 的 分 布 范围 就 越 大 ,而 分 数 越 分 散 , 信 度 系数 就 越 高 。 由 于 信和 度 系 数 
与 被 试 样本 团体 异 质 性 有 关 , 因 此 我 们 在 使 用 测验 时 不 能 认为 , 当 测验 在 一 个 团体 中 具有 较 
高 的 信 度 时 ,在 另 一 个 团体 中 也 具有 较 高 的 信 度 。 

第 二 ,被 试 样 本 团体 平均 能 力 水 平 的 影响 。 信 度 系数 不 仅 受 被 试 样本 团体 异 质 性 的 影 
响 , 也 受 被 试 样 本 团体 平均 能 力 水 平 的 影响 。 对 于 不 同 平均 能 力 水 平 的 团体 ,项 目 具有 不 同 
的 难度 ,每 个 项 目的 变化 积累 起 来 便 会 影响 测量 的 信 度 。 因 此 ,对 于 不 同 平均 能 力 水 平 的 团 
体 ,题目 的 难度 会 影响 信 度 系数 估计 。 

基于 此 ,我 们 在 设计 测验 时 ,要 考虑 到 被 试 样本 特征 ,应 该 尽量 将 被 试 的 分 数 拉 开 距离 ， 
以 提高 测量 的 信 度 。 

(二 ) 主 试 因素 

就 主 试 而 言 , 若 他 不 按 测验 指导 手册 中 的 规定 施 测 ,或 故意 制造 紧张 气氛 ,或 通过 指导 
语 等 给 考生 以 暗示 .协助 等 , 则 测量 的 信 度 会 大 大 降低 。 若 评分 者 没有 一 个 统一 的 标准 答案 
或 评分 较为 主观 , 则 也 会 降低 测量 的 信和 度 。 在 实际 中 ,如 果 评 分 的 一 致 性 很 低 ,那么 即便 是 
一 个 好 的 测验 ,也 不 可 能 有 好 的 测量 的 信 度 。 因 此 , 主 试 的 施 测 和 评分 的 客观 性 对 提高 测量 
的 信 度 相当 重要 ,要 努力 改进 和 完善 施 测 与 评分 的 程序 。 

(三 ) 测验 长 度 

一 般 来 说 ,测验 的 长 度 越 长 ,测量 的 信 度 就 越 高 。 这 是 因为 ,测验 的 项 目 多 , 则 取样 更 有 
代表 性 ,从 而 能 够 更 好 地 反映 受 测 者 的 真实 水 平 :测验 的 项 目 多 ,在 每 个 项 目 上 的 随机 误差 
更 可 能 得 到 相互 抵消 。 
(四 ) 测验 难度 
测验 难度 与 测量 的 信 度 其 实 没有 直接 的 对 应 关系 ,但 若 测验 太 难 或 太 易 , 则 分 数 的 
范围 就 会 缩小 ,从 而 降低 测量 的 信和 度 。 只 有 当 测 验 难度 水 平 可 以 使 测验 分 数 的 分 布 范 
围 较 大 时 ,测量 的 信和 度 才 会 较 高 ,通常 这 个 难度 水 平 为 0. 50 左右 , 即 中 等 难度 水 平 。 因 
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为 大 多 数 人 的 能 力 都 处 在 中 等 水 平 , 所 以 当 题 目 过 难 或 过 易 时 ,被 试 的 测验 分 数 就 有 可 
能 会 出 现 “ 地 板 效应 ”或 天花板 效应 ”, 从 而 降低 了 测量 的 信和 度 。 

(五 ) 两 次 施 测 间隔 时 间 

在 计算 重 测 信 度 或 复 本 信和 度 时 ,两 次 测验 间隔 时 间 越 短 ,其 测量 的 信 度 就 可 能 越 高 ; 间 
隔 时 间 越 长 ,其 他 因素 带 来 的 影响 机 会 越 多 ,因而 其 测量 的 信和 度 就 可 能 越 低 。 


二 、 提 高 测量 的 信 度 的 方法 


通常 ,测验 编制 者 想 让 他 们 的 测验 在 实际 中 应 用 ,但 有 时 却 发 现 测量 的 信 度 不 高 ,那么 
就 需要 采取 一 些 方法 来 提高 测量 的 信 度 ,主要 方法 如 下 。 

(一 ) 增加 适量 的 测验 项 目 

由 于 项 目 数量 太 少 会 降低 测量 的 信 度 ,因此 提高 测量 的 信 度 的 一 个 常用 方法 是 增加 一 
些 与 原 测验 项 目 中 具有 较 好 的 同 质 性 的 项 目 , 从 而 增 大 测验 长 度 。 

不 过 有 两 点 需要 注意 : 一 是 新 增 的 项 目 必须 与 测验 中 原 有 的 项 目 同 质 ;二 是 新 增 的 项 
目 数量 必须 适量 。 事 实 上 ,增加 测验 长 度 的 效果 遵循 报酬 递减 规律 , 即 测验 过 长 有 可 能 会 引 
起 被 试 的 疲劳 和 反感 ,反而 降低 测量 的 信 度 ,所 以 要 控制 好 项 目的 数量 。 

(=) 控制 测验 项 目的 难度 及 提高 测验 项 目的 区 分 度 

在 编制 测验 时 应 使 测验 中 所 有 项 目的 难度 接近 正 态 分 布 , 并 控制 在 中 等 难度 水 平 , 这 时 
被 试 团体 的 得 分 分 布 也 会 接近 正 态 分 布 , 且 标 准 差 会 较 大 ,以 相关 为 基础 的 测量 的 信和 度 也 必 
然 会 较 大 。 

男 外 ,区 分 度 也 是 评价 测验 项 目 质量 的 重要 指标 ,可 以 直接 影响 测量 的 信和 度 。 因 此 , 努 
力 提 高 测验 项 目的 区 分 度 ,也 可 以 获得 较 高 的 测量 的 信 度 。 

(三 ) 选取 恰当 的 被 试 团体 

由 于 被 试 团体 的 内 部 差异 和 平均 水 平 会 影响 测量 的 信 度 ,因此 在 估计 测量 的 信和 度 时 ,一 
定 要 根据 测验 的 使 用 目的 来 选取 恰当 的 被 试 团体 , 即 在 编制 和 使 用 测验 时 ,一 定 要 和 弄 清楚 常 
模 团 体 的 年 龄 .性别 ,文化 程度 、 职 业 等 。 在 一 个 特别 异 质 的 团体 上 获得 的 信和 度 ,并 不 等 于 在 
某 些 较 同 质 的 亚 团体 上 获得 的 信和 度 。 只 有 当 各 个 亚 团体 的 信 度 都 合乎 要 求 时 ,测验 才 具 有 
广泛 的 应 用 价值 。 

(四 ) 规范 对 施 测 者 和 评分 者 的 要 求 

施 测 者 要 严格 执行 施 测 规章 和 程序 ,评分 者 要 严格 按照 标准 给 分 。 对 于 施 测 的 时 间 \ 场 
地 等 因素 也 要 按照 要 求 进行 设置 ,以 便 减 少 无 关 因素 的 干扰 。 只 有 这 样 , 测 量 的 信和 度 才 能 真 
正 得 到 有 效 保证 。 


通过 本 章 学 习 , 有 助 于 了 解 信 度 定义 、 信 度 估计 及 信和 度 影 响 因 素 。 信 和 度 是 测量 过 程 中 随 
机 误差 大 小 的 反映 。 随 机 误差 越 大 ,信和 度 就 越 低 ; 随 机 误差 越 小 ,信和 度 就 越 高 。 有 多 种 方法 
可 以 用 于 信 度 估计 ,包括 重 测 信 度 、 复 本 信 度 、 同 质 性 信 度 和 评分 者 信 度 等 。 测 量 的 信和 度 受 
到 多 种 因素 影响 ,如 被 试 样 本 特征 、 主 试 因素 测验 长 度 ` 测 验 难度 和 两 次 施 测 间隔 时 间 等 。 
可 以 通过 增加 适量 的 测验 项 目 、 控 制 测验 项 目的 难度 及 提高 测验 项 目的 区 分 度 .选取 恰当 的 


口 


第 三 章 信 eb 


被 试 团体 、 规 范 对 施 测 者 和 评分 者 的 要 求 等 方法 来 提高 测量 的 信 度 。 本 章 的 重点 是 对 信 度 
定义 的 理解 ,难点 是 对 信 度 估计 方法 的 掌握 。 本 章 的 中 心 概念 是 “平行 测验 ”。 


一 、 选 择 题 ( 不 定 项 选择 题 , 至 少 有 一 个 选项 是 正确 的 ) 
1. 信 度 类 型 不 包括 6 b) 


A. 重 测 信 度 B. 同 质 性 信 度 
C. 评分 者 信 度 D. 取样 信 度 
2. 重 测 信 度 是 指 用 ( ”) 对 同一 组 被 试 施 测 两 次 所 得 结果 的 一 致 性 程度 。 ¢ j 
AL 一 个 不 相等 的 测验 B. 另 一 种 测验 
C. 同一 个 测验 D. 另 一 个 相等 的 测验 


3. 信 度 系数 可 以 解释 测量 的 总 变异 中 ( 。 ”) 造 成 的 变异 所 占 百 分 比 。 & f 
A. 样本 标准 差 B. 测量 标准 误 C. 随机 误差 分 数 D. 真 分 数 
4. 影响 测量 的 信 度 的 主要 因素 包括 ¢ $ 


A. 被 试 样本 特征 B. ERAK 
C. 测验 长 度 D. 两 次 施 测 间隔 时 间 

5. 对 于 不 同 平均 能 力 水 平 的 团体 ,题目 的 ( ) 会 影响 信 度 系数 估计 。 ¢ 3 
A. 难度 B. 表达 方式 c. 代表 性 D. 效 度 

6. 斯 皮尔 曼 一 布朗 公式 : ree = OP ry SEC  ) 得 分 的 相关 系数 。 ¢ 9 
A. 全 测验 B. 原 测验 C. 两 半 测 验 D. 全 部 分 数 


7. SE 二 Sx V1 一 rxx ' 式 中 SE 表示 测量 的 标准 误 ,Sx 表示 观察 分 数 的 标准 差 ,rxx 表示 
测量 的 信和 度 。 从 公式 中 可 以 看 出 ,测量 的 标准 误 与 信 度 之 间 的 关系 是 ©) 


A. 信和 度 越 低 ,标准 误 越 小 B. 信 度 越 低 , 标 准 误 越 大 
C. 信 度 越 高 ,标准 误 越 大 D. 信 度 越 高 ,标准 误 越 小 
8. 信 度 主要 受 ( ) 的 影响 。 ( ) 
A. 系统 误差 B. 随机 误差 
C. 恒定 效应 D. 概 化 作用 


9. 同 质 性 信 度 是 指 测验 内 部 (  ) 间 的 一 致 性 程度 。 ¢ 3J 
A. 两 半 测 验 B. 题目 与 分 测验 C. 所 有 题目 D. 分 测验 
10. 信和 度 的 定义 公式 可 表示 为 ¢ 3 


A. mee B; me C. r= D: me 
Sx Sx St Sv 
11. 重 测 信 度 的 主要 误差 变异 来 源 是 € ) 
A. 内 容 取样 B. 时 间 取 样 
C. 时 间 与 内 容 取样 D. 内 容 异 质 性 


12. 用 来 评价 测量 结果 可 靠 性 、 稳 定性 的 指标 是 ( ) 
A. 效 度 B. 信 度 C. 难度 D. 区 分 度 
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13. 若 某 测验 测量 的 信和 度 为 0. 64, 观 察 分 数 的 标准 差 为 5, 则 该 测验 测量 的 标准 误 为 
) 


A. 0.36 B. 1.04 C. 3.00 D. 4.36 
14. 克 龙 巴赫 提出 的 a 系数 主要 用 来 计算 ©) 
A. 重 测 信和 度 B. 复 本 信和 度 
C. 评分 者 信 度 D. 内 部 一 致 性 信 度 
15. 若 将 测验 对 等 分 半 后 ,两 半 测 验 得 分 的 相关 系数 为 0. 60, 则 该 测验 校正 后 的 分 半 信 
度 是 € 3 
A. 0.70 B 0.75 C. 0.80 D. 0.85 
二 、 简 答题 


1. 什么 是 平行 测验 ? 成 为 平行 测验 有 什么 条 件 ? 
2. 简 述 不 同类 型 信 度 所 对 应 的 误差 变异 来 源 。 
3. 简 述 影响 测量 的 信 度 的 主要 因素 ,以 及 提高 测量 的 信 度 的 方法 。 
4. 简 述 各 种 信 度 的 优 缺点 。 
、 证明 题 
1. 利用 经 典 测验 理论 的 三 个 基本 假设 和 三 个 相关 推论 ,证 明 S% 二 S$ 十 SE。 
2. 证 明 信 度 三 个 定义 公式 的 等 价 性 , 即 定义 四 一定 义 思 王 定义 @。 


62 


第 四 章 效 | 度 


在 测量 活动 中 ,测量 者 使 用 测量 工具 对 测量 对 象 实施 测量 ,测量 得 到 的 结果 与 实际 
情况 是 否 相符 是 测量 者 最 为 关心 的 。 在 测量 中 ,我 们 一 般 用 效 度 来 表示 测量 结果 与 实 
际 情况 的 相符 合 程度 。 与 前 面 所 介绍 的 测量 的 信和 度 不 同 ,测量 的 信和 度 的 高 低 反映 了 测 
量 分 数 的 稳定 与 否 ,而 测量 的 效 度 的 高 低 反映 了 测量 分 数 的 有 效 与 否 。 众 所 周知 ,心理 
测量 为 间接 测量 ,我们 除了 关注 测量 的 信 度 以 外 ,还 应 该 重视 另 一 个 更 为 重要 的 指标 : 
测量 的 效 度 。 


第 一 节 效 度 定义 


一 、 效 度 的 定义 


在 心理 测量 中 , 效 度 (validity) 是 指 所 测量 的 与 要 测量 的 心理 特质 之 间 符 ( 吻 ) 合 的 程度 ， 
或 者 简单 地 说 是 指 一 个 心理 测验 的 准确 性 或 有 效 性 。 

要 测量 的 用 Y 来 表示 ,Y 有 一 个 规定 的 测量 范围 。 所 测量 的 用 X 来 表示 ,X 有 一 个 实 
际 的 测量 范围 。 将 XX 与 Y 进行 符 ( 吻 ) 合 ,计算 两 者 重生 的 范围 。 若 重 全 的 范围 越 大 , 则 效 
度 就 越 高 。 反 之 , 效 度 就 越 低 。 

从 效 度 的 定义 来 看 , 效 度 测量 包含 以 下 三 要 素 : 

第 一 要 素 : Y; 

第 二 要 素 : X; 

第 三 要 素 : X 一 Y。 

从 效 度 测量 的 三 要 素来 看 , 效 度 测量 包括 以 下 三 步 : 

第 一 步 ,给 出 Y( 理 论 上 规定 要 测量 的 ); 

第 二 步 ,实测 X( 实 际 中 测量 出 的 ); 

第 三 步 ,将 X 5 Y 进行 比较 ,看 它们 之 间 的 符 ( 吻 ) 合 程度 。 

如 此 看 来 , 效 度 是 X 与 了 的 面积 (变异 或 范围 ) 之 交集 所 占 的 百分比 ,因此 效 度 是 面积 
之 比 ,可 用 符号 r 知 来 表示 ,如 图 4-1 所 示 。 


(a) (b) (c) (d) 


图 4-1 XX 与 Y 的 交集 
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在 图 4-1(a) 中 ,和 与 并 的 交集 为 0, 其 效 度 为 0。 在 图 4-1(b) 中 ,X 与 了 的 交集 不 为 
0, 其 效 度 不 为 0。 在 图 4-1(c) 中 ,X 与 了 的 交集 进一步 增 大 ,其 效 度 提高 。 在 图 4-1(d) 
中 ,X 与 了 的 交集 达到 100% ,完全 重合 ,其 效 度 为 1。 从 图 4 一 1(a) 一 (d) 交 集 的 变化 趋势 可 
以 看 出 ,X 与 Y 的 重 倒 范围 越 大 ,测量 的 效 度 就 越 大 。 

经 典 测验 理论 将 效 度 定义 为 : 与 测量 目标 有 关 的 真 分 数 方差 与 观察 分 数 方差 之 比 , 可 
表示 为 


(4-1) 


在 公式 (4- 1) 中 ,mr 表示 效 度 ;rxr 表 示 效 度 系 数 ;S# 表示 与 测量 目标 有 关 的 真 分 数 方 
FSi 表示 观察 分 数 方差 。 

我 们 知道 ,测量 误差 包括 随机 误差 和 系统 误差 。 测 量 的 信 度 主要 受 随 机 误差 影响 ， 
而 测量 的 效 度 同 时 受 随机 误差 和 系统 误差 影响 。 在 经 典 测验 理论 中 , 真 分 数 是 观察 分 
数 中 除 随 机 误差 分 数 之 外 的 稳定 的 那 一 部 分 值 。 但 是 , 真 分 数 方差 Si 既 包 含 了 与 测量 
目标 有 关 的 真 分 数 方差 (valid) (SS%) ,也 包含 了 与 测量 目标 无 关 的 但 对 测量 产生 稳定 影 
响 的 系统 误差 分 数 方差 (Invalid)(S?) , 即 S}=S' +S}. WA. MAHA - 1), RAT 


可 以 得 到 下 式 
fy =F = FE (4-2) 
二 、 效 度 的 性 质 
(一 ) 效 度 是 一 个 相对 的 概念 
效 度 的 相对 性 主要 表现 在 以 下 两 个 方面 。 


(1) 效 度 是 针对 特定 的 测量 目的 而 言 的 ,不 具有 普遍 性 。 由 前面 定义 可 知 , 效 度 是 指 实 
测 结果 与 所 要 测量 的 特质 之 间 的 一 致 性 程度 。 因 此 ,一 个 测验 的 有 效 性 可 以 从 此 测验 能 否 
测 得 所 要 测量 的 特质 ,达到 测量 目的 来 判断 。 没 有 一 个 测验 是 对 任何 测验 的 目的 都 是 有 效 
的 。 例 如 , 韦 氏 智力 量 表 只 对 测验 智力 有 效 , 而 对 测验 人 格 基本 是 无 效 的 。 使 用 一 个 测验 
时 ,必须 考虑 测验 的 用 途 。 能 够 实现 测量 目的 ,发 挥 出 其 相应 的 功能 和 作用 的 测验 才 是 有 效 
的 测验 ,测量 的 效 度 就 高 。 反 之 ,测量 的 效 度 就 低 。 

(2) 效 度 只 是 程度 上 的 差异 。 众 所 周知 ,心理 特质 的 测量 属于 间接 测量 ,心理 特质 具有 
较 隐 蔽 的 特性 ,只 能 通过 其 行为 表现 来 推测 。 几 乎 没有 一 个 测验 能 够 百分之百 地 测 出 所 要 
测量 的 心理 特质 ,心理 测量 只 能 达到 某 种 程度 上 的 准确 。 正 常情 况 下 ,一 个 测验 测量 的 效 度 
不 会 为 零 , 效 度 只 有 程度 上 的 差别 ,而 不 是 “全 ”或 “无 ”的 差别 。 因 此 ,在 考虑 测验 用 途 的 基 
础 上 ,对 测验 进行 评价 时 一 般 用 “高 效 度 “ 中 等 效 度 "和 * 低 效 度 ”来 描述 。 

(二 ) 效 度 是 针对 测验 结果 而 言 的 

一 般 来 说 ,进行 测验 后 所 得 结果 的 真实 与 否 是 人 们 最 为 关心 的 。 例 如 , 当 对 一 个 精神 紧 
张 的 人 进行 焦虑 测验 时 ,当事人 可 能 会 提出 “这 个 测验 可 信 吗 ”的 问题 。 实 则 ,他 们 是 在 问 
“这 个 测验 真 的 能 够 辨别 出 我 是 否 处 于 焦虑 状态 吗 ?” 因 此 ,测验 的 有 效 性 是 针对 测验 结果 而 
言 的 ,测量 的 效 度 即 指 测验 结果 的 有 效 性 。 
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三 、 信 和 度 与 效 度 的 关系 


(一 ) 信 度 高 是 效 度 高 的 必要 而 非 充分 条 件 

如 果 用 一 把 尺子 测量 长 度 ,每 一 次 测量 的 结果 都 倾向 于 比 实际 长 度 多 出 5 毫米 ,说 明 这 
把 尺子 测量 时 产生 了 稳定 的 变异 ,那么 这 把 尺子 的 信 度 指标 是 好 的 。 但 是 ,从 效 度 的 角度 
讲 , 这 把 尺子 的 有 效 性 并 不 理想 ,因为 它 没 能 准确 地 达到 测量 的 目的 。 

我 们 知道 ,经典 测验 理论 认为 ,观察 分 数 方差 等 于 真 分 数 方差 和 随机 误差 分 数 方差 之 
和 , 即 SK 二 5+ 十 SE。 而 二 S$ 十 Si ,因此 St 二 S$ 十 Si 十 SE。 这 表明 ,观察 分 数 方差 等 于 真 
分 数 方差 ,系统 误差 分 数 方差 和 随机 误差 分 数 方差 之 和 。 从 信 度 与 效 度 的 定义 来 看 , 效 度 为 
rey = St /Sk ,信和 度 为 rxx =S7/Sk Mi S = Si + Si ,那么 信和 度 的 提高 只 会 给 S$ 的 增加 提供 可 
能 性 ,但 效 度 是 否 提高 还 需 看 Si 的 大 小 。 如 此 看 来 , 信 度 高 时 , 效 度 不 一 定 高 ,但 效 度 高 时 ， 
信 度 一 定 高 。 因 此 , 信 度 高 是 效 度 高 的 必要 而 非 充分 条 件 。 

(=) 测量 的 效 度 受信 度 的 制约 

信 度 与 效 度 具 有 内 在 的 联系 , 信 度 与 效 度 的 关系 可 表示 为 

rxy = VrxxTyy (4-3) 

在 公式 (4- 3) 中 ,rxy 表 示 预 测 工具 X 与 效 标 Y 之 间 可 能 的 相关 关系 最 大 值 (最 大 效 度 
系数 ) ;rxx 表示 预 测 工具 XX 的 信和 度 系数 ;ryy 表 示 效 标 Y 的 信和 度 系数 。 

从 公式 (4-3) 可 知 ,无 论 是 预测 工具 X 的 信和 度 系数 降低 还 是 效 标 Y 的 信 度 系数 降低 ， 
最 大 效 度 系数 均 会 随 之 降低 。 这 表明 ,测量 的 效 度 受 到 测量 的 信和 度 的 制约 ,两 者 的 关系 可 以 
进一步 表示 为 


riy < rxx (4-4) 
rxy < Vrxx (4-5) 
rxy Srxr (4-6) 

从 公式 (4 一 4) 可 知 ,信和 度 系数 是 效 度 的 最 高 上 限 , 即 效 度 三 信和 度 (系数 )。 

从 公式 (4- 5) 可知, 信和 度 系 数 的 平方 根 是 效 度 系数 的 最 高 上 限 , 即 效 度 系数 


三 V 信 度 系数 。 
从 公式 (4 一 6) 可 知 ,信和 度 指 数 是 效 度 系数 的 最 高 上 限 , 即 效 度 系数 三 信和 度 指 数 。 
我 们 还 可 以 借助 图 4- 2 更 为 直观 地 理解 测量 的 信 度 与 效 度 的 关系 。 


s: | s s: ] 
(c) 
图 4-2 S? SiS 三 部 分 的 比重 与 测量 的 信 度 . 效 度 的 关系 


在 图 4-2(a) 中 ,S$ 和 S$ 所 占 的 比重 都 较 大 (S+ 二 S$ 十 S3) ,因此 测量 既 有 高 效 度 又 有 


o 
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高 信 度 。 在 图 4-2(b) 中 ,St# 所 占 比 重 较 小 ,而 Sh 所 占 比 重 较 大 ,因此 测量 有 低 效 度 和 高 信 
E. 图 4-2(c) 中 ,S% 和 S$ 所 占 的 比重 都 较 小 ,因此 测量 的 效 度 和 信和 度 都 低 。 


第 二 节 效 度 估计 


由 上 节 可 知 , 效 度 测量 的 关键 是 找 出 对 应 的 三 要 素 , 即 Y、X 和 XX 一 了 Y。 然 而 ,由 于 Y 的 
种 类 存在 不 同 , 效 度 估 计 也 不 尽 相 同 。 如 此 看 来 , 效 度 测量 应 该 包含 多 方面 的 证 据 , 其 中 最 
主要 的 是 内 容 效 度 、 效 标 效 度 和 结构 效 度 ,学 会 对 这 三 种 效 度 进行 定性 与 定量 地 分 析 , 是 相 
当 重 要 的 ,在 此 我 们 将 逐一 介绍 。 


一 、 内 容 效 度 


(一 ) 内 容 效 度 的 定义 

内 容 效 度 是 指 测验 内 容 对 于 测验 所 欲 测 之 行为 的 领域 的 代表 性 程度 , 即 一 个 测验 实 
际 测 到 的 内 容 与 所 要 测量 的 内 容 之 间 的 符 ( 吻 ) 合 程度 。 比 如 ,编制 一 个 高 中 物理 成 就 测 
验 , 如 果 该 测验 覆盖 了 高 中 物理 教学 大 纲 里 的 所 有 知识 点 ,那么 这 个 测验 具有 较 高 的 内 容 
效 度 。 在 学 业 成 就 测验 和 职业 测验 中 ,应 测 的 内 容 和 行为 的 领域 都 有 比较 明确 的 界定 ,内 
容 效 度 的 验证 就 相对 比较 重要 ,也 比较 容易 判定 ;在 人 格 测验 和 兴趣 测验 中 ,应 测 的 内 容 
和 行为 的 领域 界定 不 明显 ,内 容 效 度 的 验证 也 就 比较 难以 判定 。 显 而 易 见 ,由 上 述 分 析 我 
们 知道 ,内 容 效 度 定义 中 最 为 关键 的 因素 是 测验 所 欲 测 之 行为 的 领域 ,也 称 之 为 测验 的 内 
容 范 围 。 根 据 测 验 所 测 的 特质 不 同 ,测验 的 内 容 范围 可 大 可 小 ,但 所 有 测验 的 内 容 范 围 均 
有 两 个 特性 : 一 是 边界 性 ,这 保证 了 测验 题目 对 内 容 范 围 的 代表 性 ;二 是 结构 化 ,将 内 容 
范围 分 为 几 类 ,使 之 能 够 与 具体 测验 题目 的 结构 相对 照 。 由 此 可 见 ,内 容 效 度 与 测验 题目 
的 代表 性 息息相关 。 

此 外 ,在 使 用 内 容 效 度 时 ,要 避免 与 表面 效 度 (face validity 或 surface validity) 相 混淆 。 
表面 效 度 是 描述 外 行人 对 某 个 测验 从 表面 上 看 是 测 某 种 心理 特质 的 可 能 性 程度 。 简 单 来 
说 ,就 是 外 行人 看 某 个 测验 时 以 为 这 个 测验 在 测 某 种 心理 特质 。 若 外 行人 认为 某 个 测验 能 
有 效 地 测 得 某 种 心理 特质 , 则 说 明 该 测验 的 表面 效 度 较 高 。 反 之 , 则 说 明 该 测验 的 表面 效 度 
较 低 。 一 般 来 说 ,最 高 成 就 测验 (最 佳 行为 测验 ) 往 往 要 求 表 面 效 度 较 高 ,而 典型 行为 测验 则 
要 求 表 面 效 度 较 低 。 要 注意 的 是 ,表面 效 度 实际 上 不 能 算是 一 种 效 度 , 它 不 能 反映 测验 实际 
测量 的 东西 。 

(二 ) 内 容 效 度 的 评估 方法 

内 容 效 度 的 评估 是 系统 检查 一 个 测验 实际 测 到 的 内 容 与 所 要 测量 的 内 容 之 间 的 符 ( 吻 ) 
合 程度 ,评估 内 容 效 度 一 般 从 内 容 范围 的 确定 开始 。 考 察 测 验 的 内 容 效 度 包 括 三 方面 的 问 
题 : 一 是 题目 所 要 测量 的 内 容 是 否 真正 属于 应 测量 的 领域 ;二 是 测验 所 包含 的 题目 是 否 覆 
盖 了 应 考察 领域 的 所 有 方面 :三 是 考察 所 测 特质 不 同方 面 的 测验 题目 占 整个 测验 题目 的 比 
例 是 否 得 当 。 

内 容 效 度 最 常用 的 方法 是 逻辑 分 析 法 。 逻 辑 分 析 法 的 工作 思路 是 请 有 关 专 家 对 测验 题 
目 与 原 定 内 容 范围 的 符 ( 吻 ) 合 程度 作出 判断 。 人 逻辑 分 析 法 一 般 是 依靠 有 关 专 家 ,对 测验 题 
目 和 测验 结构 作 深入 、 系 统 \、 全 面 、 严 格 的 分 析 与 检查 。 因 此 ,逻辑 分 析 法 有 时 也 称 为 专家 评 
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定 法 。 在 评定 过 程 中 ,专家 一 般 把 所 有 试题 按 考试 内 容 分 布 和 教学 目标 要 求 进行 双向 分 类 ， 
形成 “双向 分 类 表 ”, 与 编制 好 的 “命题 双向 细 目 表 ” 进 行 对 照 比较 ,对 测验 内 容 效 度 的 满意 程 
度 作出 等 级 判断 或 评语 描述 ,根据 各 部 分 的 符 ( 吻 ) 合 程度 ,判断 测验 内 容 效 度 。 例 如 ,小 学 
数学 四 则 混合 运算 成 就 测验 的 命题 双向 细 目 表 . 如 表 4 一 1 所 示 。 


表 4-1 小 学 数学 四 则 混合 运算 成 就 测验 的 命题 双向 细 目 表 
教学 目标 j x n 

教材 内 容 知识 ”理解 应 用 分 析 综合 评价 总计 百分比 
选择 1 2 
填充 1 1 

加 法 8 题 20% 
计算 1 1 
应 用 1 
选择 1 1 
填充 1 1 

减法 8 题 20% 
计算 1 1 1 
应 用 1 
选择 2 1 1 
填充 1 1 

乘法 12 题 30% 
计算 2 1 
应 用 1 1 
选择 2 1 1 
填充 1 1 1 

除法 12 题 30% 
计算 1 1 1 
应 用 1 1 

总 计 10 题 10 题 8 题 4 题 4 题 4 题 40 题 100% 

百分比 25% 25% 20% 10% 10% 10% 100% 


逻辑 分 析 法 的 一 般 步 又 如 下 。 

第 一 步 , 确 定 命题 双向 细 目 表 ( 理 论 ) ,这 就 是 *Y”。 

第 二 步 ,编制 测验 内 容 ( 题 目 )( 实 际 ) ,这 就 是 *X”。 

第 三 步 , 评 定 测验 内 容 与 命题 双向 细 目 表 的 符 ( 吻 ) 合 程度 ,这 就 是 “X 一 Y”。 

(三 ) 内 容 效 度 的 应 用 

内 容 效 度 适用 于 测量 具体 属性 的 测验 ,尤其 适用 于 内 容 参 照 测验 ,如 成 就 测验 ,因为 成 
就 测验 主要 是 测量 被 试 掌握 某 种 技能 或 学 习 某 门 课程 所 达到 的 程度 。 测 验 的 编制 不 可 能 将 
所 预测 的 所 有 内 容 的 有 关 材 料 和 情境 都 包括 在 测验 中 ,因此 在 测验 中 题目 取样 的 代表 性 问 
题 就 是 内 容 效 度 考 察 的 首要 问题 。 内 容 效 度 高 , 即 说 明 题目 取样 代表 性 高 ,可 以 把 被 试 在 该 
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测验 上 的 分 数 推论 到 相应 的 知识 总 体 上 去 ;反之 ,推论 失效 。 因 此 ,必须 考察 测验 题目 取样 
的 适当 性 , 即 内 容 效 度 。 

内 容 效 度 也 适用 于 某 些 员工 选拔 与 分 类 的 职业 测验 。 当 测验 内 容 是 取 自 实际 工作 ,或 是 实 
际 工作 所 需 的 技能 时 ,选择 内 容 效 度 作 为 效 度 证 据 是 合适 的 。 当 然 ,在 这 种 情况 下 还 需要 进行 工 
作 分 析 以 证 实 工作 活动 与 测验 内 容 之 间 的 相似 性 ,否则 ,题目 取样 的 代表 性 就 难以 令 人 信服 。 

应 该 指出 的 是 ,内 容 效 度 不 太 适 用 于 能 力 倾向 测验 和 人 格 测验 ,因为 这 两 种 测验 不 是 根 
据 指定 的 教学 课程 或 统一 的 先前 经 验 来 抽取 测验 内 容 的 。 在 此 两 类 测验 中 ,被 试 对 相同 的 
测验 题目 作出 反应 所 使 用 的 心理 机 能 可 能 大 不 相同 。 在 这 种 情况 下 ,实际 上 不 大 可 能 从 检 
查 测验 内 容 来 确定 测验 所 测量 的 心理 机 能 。 

但 是 ,事实 上 ,内 容 效 度 对 于 任何 测验 的 编制 都 是 需要 的 。 只 是 很 多 测验 难以 描述 一 个 
具有 边界 性 的 和 结构 化 的 内 容 范围 ,比如 上 文 所 说 的 能 力 倾 向 测验 和 人 格 测验 ,因而 较 难 得 
到 内 容 效 度 的 评估 指标 。 此 外 ,还 应 指出 ,内 容 效 度 虽然 可 以 有 效 地 评价 测验 内 容 的 有 效 
性 ,但 是 全 面 评价 内 容 参 照 测验 的 有 效 性 还 需要 其 他 类 型 的 效 度 证 据 。 

(四 ) 对 内 容 效 度 的 评价 

为 了 确定 一 个 测验 是 否 有 内 容 效 度 , 最 常用 的 方法 是 请 有 关 专 家 对 测验 题目 与 测验 的 内 
容 范 围 的 符 ( 吻 ) 合 性 作出 判断 ,看 测验 题目 是 否 代表 了 规定 的 内 容 。 专 家 从 主观 上 进行 判断 ， 
从 巡 辑 上 对 编制 的 测验 题目 与 命题 双向 细 目 表 之 间 进 行 分 析 。 因 此 ,内 容 效 度 有 时 也 称 为 “ 退 
辑 效 度 ”。 这 种 效 度 显得 太 “ 主 观 ”, 一 切 由 “专家 "说 了 算 。 那 么 ,有 没有 一 种 更 为 客观 的 效 度 
估计 方法 呢 ? 这 便 是 效 标 效 度 。 


二 、 效 标 效 度 


由 上 可 知 , 内 容 效 度 太 “主观 ”有些 人 更 愿意 寻找 一 种 更 “客观 ”的 方法 来 估计 效 度 。 有 
人 主张 ,一 切 应 该 由 "实践 "说 了 算 , 是 “ 骤 子 是 “ 马 ” 应 该 拉 出 去 遇 遇 。 这 就 是 实证 主义 思 
想 , 由 此 产生 的 效 度 称 为 效 标 效 度 , 很 显然 它 有 利于 克服 "主观 效 度 (内 容 效 度 ) 的 不 足 。 效 
标 效 度 也 可 称 为 实证 效 度 ,或 关联 效 度 , 或 效 标 关联 效 度 ,或 统计 效 度 。 对 于 效 标 效 度 的 这 
些 其 他 称呼 , 旨 在 强调 在 实践 中 找寻 证 据 证 明 效 度 的 重要 性 。 

(一 ) 效 标 效 度 的 定义 

效 标 效 度 是 指 在 评估 测验 时 ,测验 分 数 与 作为 效 标的 另 一 独立 测量 结果 之 间 的 一 致 性 
程度 。 比 如 ,用 高 考 的 英语 成 绩 来 预测 大 学 生 入 学 后 的 CET -4 考试 成 绩 ; 用 能 力 倾向 测验 
来 预测 员工 的 绩效 等 。 在 使 用 效 标 效 度 评估 测验 时 ,需要 有 一 个 对 比 的 标准 , 即 效 标 。 效 标 
是 用 来 检验 测验 测量 的 效 度 的 标准 ,多 为 被 预测 的 行为 。 

一 个 测验 可 以 有 不 同 的 效 标 ,不 同 效 标的 选择 可 能 会 出 现 不 同 的 结果 ,因此 应 该 注意 效 
标的 选择 。 此 外 , 效 标 具有 时 间 性 ,因而 又 有 中 间 效 标 和 最 终 效 标 之 分 。 例 如 ,大 学 中 语文 
写作 成 绩 只 是 写作 能 力 倾向 测验 的 中 间 效 标 ,而 作为 文学 家 的 最 终 文学 作品 ,文学 成 就 才 是 
最 终 效 标 。 但 是 ,由 于 最 终 效 标 过 于 耗 时 ,而 且 在 漫长 的 过 程 中 会 受到 各 种 因素 的 影响 ， 
此 更 常用 的 是 中 间 效 标 。 

需要 注意 的 是 , 效 标 作为 评估 测验 的 标准 ,是 通过 测量 得 到 的 ,这 就 需要 在 效 标 测量 中 
控制 各 种 误差 防止 效 标 污染 ,从 而 得 到 有 效 且 可 靠 的 效 标 资料 。 好 的 效 标 需 要 具备 可 靠 
性 .有效 性 、 可 操作 性 经 济 实用 性 等 特点 。 常 用 的 效 标 有 以 下 几 种 。 
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(1) 学 习 成 绩 。 如 在 校 成 绩 、 学 历 、 教 师 评价 等 可 作为 成 就 测验 和 能 力 倾向 测验 等 的 
效 标 。 

(2) 工作 成 就 。 如 在 实际 工作 中 的 绩效 、 具 体 表现 等 均 可 作为 职业 测验 、 能 力 倾 向 测验 
以 及 人 格 测验 等 的 效 标 。 

(3) 特殊 训练 成 绩 。 各 种 专业 训练 的 成 绩 可 作为 各 种 专业 团体 人 员 选 拔 测验 的 效 标 ， 
比如 部 队 里 选拔 特种 兵 。 

(4) 临床 诊断 。 临 床上 观察 诊断 的 结果 以 及 患者 的 病史 等 可 作为 智力 测验 或 人 格 测验 
的 效 标 。 

(5) 团体 比较 。 可 以 将 能 否 区 分 不 同 效 标 表 现 的 团体 作为 标准 来 衡量 测验 的 有 效 性 ， 
比如 智力 测验 能 区 分 不 同年 龄 的 儿童 ,人 格 测验 能 区 分 不 同 精神 病症 状 的 群体 等 。 

(6) 现 有 测验 。 一 个 新 的 测验 可 以 把 已 有 的 具有 良好 效 度 的 旧 测 验 作为 效 标 ,如 果 两 
个 测验 相关 较 高 ,那么 新 的 测验 的 有 效 性 也 较 高 。 

根据 效 标 资料 收集 的 时 间 差 异 , 效 标 效 度 可 以 分 为 同时 效 度 (concurrent validity) 和 预 
测 效 度 (predictive validity) 两 种 。 

同时 效 度 是 指 所 要 验证 效 度 的 测验 ,其 实测 结果 与 男 一 效 标 测量 的 数据 资料 是 大 约 同 
时 获得 的 。 比 如 , 当 用 机 械 能 力 倾向 测验 测 查 一 大 批 机 械 工 人 ,并 同时 收集 机 械 工人 的 实际 
工作 成 绩 , 如 果 结果 表明 测验 高 分 组 的 实际 工作 成 绩 的 确 优 于 测验 低 分 组 的 实际 工作 成 绩 ， 
那么 我 们 就 可 以 认为 该 测验 具有 较 好 的 效 标 效 度 。 这 种 测验 的 效 标 资料 是 与 测验 分 数 同时 
搜集 的 ,因此 属于 同时 效 度 。 

预测 效 度 是 指 测验 结果 是 用 来 对 未 来 行为 或 效 标 测量 作出 预测 的 ,测验 分 数 本 身 与 未 来 
行为 或 效 标 测量 资料 是 一 前 一 后 得 到 的 。 比 如 ,前 文 所 说 的 用 高 考 英语 成 绩 来 考查 学 生 大 学 
人 学 一 年 后 参加 CET -4 考试 成 绩 的 例子 。 如 果 高 考 英语 成 绩 好 的 学 生 入 学 一 年 后 参加 CET- 4 
考试 成 绩 也 好 ,高 考 英语 成 绩 差 的 学 生 在 CET -4 考试 中 成 绩 也 差 ,那么 说 明 高 考 英语 成 绩 
对 学 生 CET -4 考试 成 绩 有 预测 能 力 。 在 这 里 ,学 生 CET - 4 考试 成 绩 是 独立 于 高 考 英语 
成 绩 的 效 标 测量 。 其 中 , 效 标 资料 需 在 学 生 和 学 一 年 后 才能 得 到 ,因此 属于 预测 效 度 。 

同时 效 度 主 要 用 于 诊断 现状 .其 作用 在 于 用 更 简单 .更 省 时 、 更 廉价 和 更 有 效 的 测验 分 
数 来 取代 不 易 搜集 的 效 标 资料 。 预 测 效 度 的 作用 在 于 预测 某 个 个 体 将 来 的 行为 。 无 论 是 哪 
一 种 效 度 ,都 是 想 在 一 个 有 代表 性 的 样本 上 ,用 实证 的 方法 来 证 明 该 测验 的 有 效 性 ,以 便 在 
今后 可 以 用 简便 的 测验 去 预测 类 似 样本 的 其 他 个 体 或 团体 的 行为 。 

(二 ) 效 标 效 度 的 评估 方法 

效 标 效 度 的 评估 方法 一 般 可 以 分 为 以 下 三 个 步骤 。 

第 一 步 ,明确 效 标 测量 (理论 ) ,这 就 是 *Y”。 

第 二 步 ,确定 测验 分 数 (实际 ) EEX”, 

第 三 步 ,考察 测验 分 数 与 效 标 测量 的 符 ( 吻 ) 合 程度 ,这 就 是 *X 一 Y”。 

对 效 标 效 度 进行 评估 ,主要 有 以 下 几 种 方法 。 

1. 相关 法 

相关 法 是 评估 效 标 效 度 最 常用 的 方法 。 顾 名 思 义 ,相关 法 就 是 通过 计算 测验 分 数 与 效 
标 测 量 的 相关 系数 (如 积 差 相关 、 等 级 相关 ,点 二 列 相关 等 ) 来 估计 测验 的 效 标 效 度 。 例 如 ， 
可 以 计算 测验 分 数 与 效 标 测量 的 皮尔 逊 (Pearson) 积 差 相 关系 数 来 估计 测验 的 效 标 效 度 , 具 
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体 的 计算 公式 可 参考 公式 (3 - 8a) 或 公式 (3 - 8b)。 前 面 介绍 了 同时 效 度 和 预测 效 度 ,在 这 
里 ,也 有 同时 效 度 和 预测 效 度 两 种 相关 法 评估 策略 。 

同时 效 度 的 相关 法 评估 策略 是 以 同时 取得 的 测验 分 数 与 效 标 成 绩 之 间 的 相关 系数 来 表 
示 的 。 由 于 可 以 同时 取得 测验 分 数 和 效 标 成 绩 ,因此 效 标 效 度 资料 很 快 就 可 以 建立 。 

预测 效 度 的 相关 法 评估 策略 是 以 决策 前 的 测验 分 数 与 决策 后 的 效 标 成 绩 之 间 的 相关 系 
数 来 表示 的 。 但 是 ,由 于 效 度 研 究 要 求 所 取样 本 应 能 代表 受 测 者 总 体 ,而 预测 效 度 的 效 标 成 
绩 常 取 自 决策 后 的 人 群 ,这 些 人 往往 是 在 测验 中 得 分 较 高 的 一 部 分 。 如 果 用 这 些 数据 计算 
相关 系数 得 出 预测 效 度 ,那么 就 有 可 能 存在 较 大 的 误差 。 

下 面 通过 一 个 例子 来 说 明 同时 效 度 和 预测 效 度 的 相关 法 评估 策略 。 例 如 ,我 国 张 厚 紧 
等 人 在 主持 修订 瑞 文 标准 推理 测验 (SPM) 时 ,报告 的 同时 效 度 是 北京 一 所 普通 高 中 45 名 
12 一 15 岁 的 学 生 同 时 接受 SPM 和 韦 氏 儿童 智力 量 表 中 国 修订 版 (WISC-CR) 测 试 后 其 得 分 
的 积 差 相关 系数 ,报告 的 预测 效 度 则 是 对 北京 市 两 所 中 学 69 名 高 三 学 生 先 施 测 SPM, 再 搜 
集 这 批 学 生 三 个 月 后 的 高 考 成 绩 ,最 后 计算 SPM 得 分 与 高 考 成 绩 的 积 差 相 关系 数 。 

需要 指出 的 是 ,以 相关 系数 表示 效 标 效 度 ,或 以 相关 系数 作为 指标 来 判断 测验 是 否 有 效 
时 ,应 该 注意 相关 系数 在 统计 上 的 显著 性 ,一 般 要 求 达 到 0. 05 或 0. 01 显著 水 平 , 才 能 说 明 
该 相关 系数 在 很 大 程度 上 不 是 由 机 遇 或 者 偶然 误差 造成 的 。 

2. 统计 检验 法 

统计 检验 法 是 指 用 统计 学 的 方法 来 评估 效 度 ,是 一 种 检验 分 数 能 否 有 效 地 区 分 由 效 标 
所 定义 的 团体 的 方法 ,也 称 为 比较 法 或 区 分 法 。 简 单 来 说 ,就 是 能 否 把 测量 不 同 效 标 表现 的 
人 作为 衡量 测验 有 效 性 的 方法 。 统 计 检验 法 的 思路 是 ,被 试 接受 测验 后 ,让 他 们 工作 一 段 时 
间 ,再 根据 工作 成 绩 ( 效 标 测量 ?的 好 坏 分 成 两 组 ,这 时 再 回 过 头 来 分 析 这 两 组 被 试 原先 接受 
测验 的 分 数 差异 , 若 这 两 组 人 的 测验 分 数 差 异 显 著 , 则 说 明 该 测验 有 较 高 的 效 度 。 如 果 测 验 
有 效 , 那 么 不 同 得 分 的 被 试 在 效 标 上 的 表现 不 同 ; 如 果 测 验 无 效 ,那么 就 无 法 显示 出 差异 。 
同 理 , 在 效 标 上 表现 不 同 的 被 试 在 测验 上 所 得 分 数 也 应 该 有 差异 。 

最 常用 的 统计 检验 法 是 上 检验 和 下 检验 。 现 以 上 检验 为 例 说 明 。 采 用 上 检验 来 检验 两 
个 效 标 组 测验 分 数 是 否 有 显著 性 差异 的 公式 如 下 : 


t = —— (4-7) 


ny no 

在 公式 (4 一 7) 中 ,Xi、X, 分 别 是 两 个 效 标 组 在 测验 上 的 得 分 的 平均 数 ;Si Sh 分 别 是 两 
个 效 标 组 在 测验 上 的 得 分 的 方差 ;mi srry 分 别 是 两 个 效 标 组 被 试 人 数 。 

求 出 + 值 后 , 查 1 检 验 表 便 可 以 知道 两 个 效 标 组 在 测验 上 的 得 分 是 否 存在 显著 性 差异 。 
若 两 个 效 标 组 在 测验 上 的 得 分 的 差异 显著 , 则 说 明 测验 有 效 。 

3. 命中 率 法 

当 用 测验 作 取 舍 决 策 时 ,命中 率 经 常 被 作为 测验 有 效 性 的 重要 指标 。 命 中 率 分 为 正 命 
中 率 (Positive Predictive Power,PPP)、 负 命中 率 (Negative Predictive Power, NPP) 和 总 命 
中 率 (Hit Rate or Classification Accuracy)。 其 中 , 正 命中 率 是 指 被 测验 正确 选择 的 人 数 的 
比率 ; 负 命 中 率 是 指 被 测验 正确 淘汰 的 人 数 的 比率 ;总 命中 率 是 指 被 测验 正确 选择 的 人 数 和 
被 测验 正确 淘汰 的 人 数 之 和 占 总 人 数 的 比率 。 
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下 面 举例 说 明 。 假 设 某 次 招聘 活动 中 ,在 拥有 1 000 名 求职 者 的 总 体 中 ,实际 能 力 很 强 
的 人 有 30 人 ,有 心理 学 工作 者 用 某 能 力 测验 得 到 如 下 分 类 结果 ,如 表 4 — 2 所 示 。 


表 4-2 用 某 能 力 测验 对 1 000 名 求职 者 进行 测验 的 分 类 结果 


某 能 力 测验 鉴定 为 某 能 力 测验 鉴定 为 合计 
能 力 很 强 能 力 一 般 
实际 能 力 很 强 25 5 30 
实际 能 力 一 般 8 962 970 
合计 33 967 1 000 


根据 表 4- 2 的 有 关 数 据 ,该 测验 的 正 命中 率 为 被 某 能 力 测验 鉴定 为 能 力 很 强 的 求职 者 
中 真正 为 实际 能 力 很 强 的 人 所 占 的 比率 (PPP 二 25/33 二 0.757 6); 负 命中 率 为 被 某 能 力 测验 
鉴定 为 能 力 一 般 的 求职 者 中 真正 为 实际 能 力 一 般 的 人 所 占 的 比率 (NPP = 962/967 = 
0.994 8) ;总 命中 率 为 被 某 能 力 测验 正确 鉴定 为 实际 能 力 很 强 的 求职 者 和 被 某 能 力 测验 正 
确 鉴 定 为 实际 能 力 一 般 的 求职 者 的 人 数 之 和 占 总 人 数 的 比率 [Hit Rate 二 (25 十 962)/1 000 
=0, 987 0], 

如 果 测 验 使 用 者 同时 在 意 被 正确 选择 的 人 数 和 被 正确 淘汰 的 人 数 的 比率 ,那么 应 当选 
择 总 命中 率 作 为 效 度 指标 。 总 命中 率 越 高 , 效 度 就 越 高 。 如 果 测 验 使 用 者 更 关心 被 选中 的 
人 是 不 是 符合 要 求 ,而 不 关心 被 淘汰 的 人 是 否 不 符合 要 求 ,那么 应 该 以 正 命中 率 作 为 效 度 指 
标 。 事 实 上 ,在 招聘 选拔 中 , 正 命中 率 其 实 就 是 决策 正确 率 , 正 命中 率 与 录取 率 ( 从 求职 者 中 
选 出 的 人 数 的 比例 ) 之 间 有 一 定 的 关系 。 在 效 度 不 变 的 情况 下 ,录取 率 越 低 , 正 命中 率 越 高 。 
这 是 因为 ,录取 率 越 低 能 够 说 明 决策 者 比较 有 可 能 更 好 地 区 分 最 有 可 能 成 功 的 人 ,此 时 测验 
的 有 效 性 越 高 。 因 此 , 正 命 中 率 与 录取 率 是 人 事 决 策 中 需要 重视 的 两 个 问题 。 

三 ) 效 标 效 度 的 应 用 

效 标 效 度 对 用 于 预测 、 分 类 ,甄选 及 人 员 安置 等 目的 的 测验 来 说 ,是 十 分 重要 的 。 随 
着 测评 技术 的 发 展 , 测 验 作 为 各 种 人 事 决策 的 辅助 工具 , 相 比 于 主观 决策 而 言 , 代 表 着 准 
确 、 公 正和 经 济 的 决策 方法 , 深 受 人 事 决 策 者 的 喜爱 。 特 别 是 在 对 大 量 人 员 作 出 决策 选择 
时 ,测验 是 一 种 很 重要 的 方法 ,但 这 不 意味 着 测验 总 能 引导 正确 的 决策 。 测 验 的 效 标 效 度 
的 高 低 直 接 关 系 到 决策 的 正确 与 否 。 如 果 一 个 测验 的 效 标 效 度 很 低 , 那 么 说 明 该 测验 无 
法 准确 地 预测 被 试 在 效 标 上 的 行为 ,因此 不 能 作为 作出 决策 的 参考 标准 。 例 如 ,如 果 高 考 
的 效 标 效 度 低 ,那么 我 们 就 不 能 依据 高 考 成 绩 来 预测 考生 在 大 学 的 学 习 成 绩 ,也 不 能 以 此 
作为 依据 对 考生 进行 分 类 和 筛选 。 否 则 ,将 会 有 很 多 考生 因为 这 样 不 合理 的 推论 而 被 错 
误 淘 汰 。 在 人 才 选 拔 上 ,也 是 如 此 ,进行 决策 前 的 测验 也 应 该 具有 良好 的 效 标 效 度 ,只 有 
这 样 ,以 测验 的 结果 作为 指标 来 作出 决策 才 是 比较 合理 的 。 从 参与 者 的 角度 来 看 ,只 有 这 
样 ,他 们 才 可 以 发 挥 出 自己 最 大 的 潜力 ,作出 最 适合 自己 的 选择 。 从 社会 或 决策 者 的 角度 
来 看 ,只 有 这 样 , 人 员 安 置 与 使 用 才能 够 变 得 合理 ,才能 够 使 得 人 尽 其 才 。 显 然 , 效 标 效 度 
对 测验 的 应 用 和 推广 都 是 十 分 重要 的 。 

(四 ) 对 效 标 效 度 的 评价 

进行 效 标 效 度 估计 ,最 为 关键 的 是 找到 一 个 好 的 效 标 。 然 而 ,一 个 好 的 效 标 必须 具备 
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以 下 条 件 : 

(1) 效 标 必须 具有 较 高 的 信 度 (可 信 ); 

(2) 效 标 必须 具有 较 高 的 效 度 ( 有 效 ); 

(3) 效 标 可 以 客观 地 加 以 测量 (可 操作 ); 

(4) 效 标 测量 简单 .省 时 、 经 济 (经 济 实用 ) 。 

效 标 效 度 是 一 种 “客观 ” 效 度 。 与 内 容 效 度 “ 太 主观 ” 相 比 , 效 标 效 度 “ 太 客观 ”, 一 切 完全 
由 实践 (或 实证 ) 说 了 算 。 人 们 不 禁 会 问 . 有 没有 一 种 既 不 是 “ 太 主 观 ” 又 不 是 “ 太 客观 ”的 效 
度 估计 方法 呢 ? 这 便 是 结构 效 度 。 


三 、 结 构 效 度 


(一 ) 结构 效 度 的 定义 

结构 效 度 ,又 称 为 构想 效 度 或 构思 效 度 ,是 指 一 个 测验 实际 测 到 所 要 测 的 理论 结构 
(心理 特质 结构 ) 的 程度 。 这 里 所 指 的 理论 结构 (心理 特质 结构 ) 是 指 心理 学 理论 所 涉及 的 
抽象 而 属 假设 性 的 概念 ,比如 智力 人格、 创造 力 等 。 实 际 上 ,所 有 的 理论 结构 都 有 两 个 基 
本 属性 : 一 是 对 本 质 规律 的 抽象 概括 ;二 是 与 具体 的 可 观察 的 事物 相 联系 。 第 一 个 属性 
使 之 成 为 科学 理论 发 展 的 基础 ,第 二 个 属性 使 之 成 为 可 测量 。 这 些 理论 结构 都 不 能 被 直 
接 测量 与 认识 ,只 能 间接 地 推论 其 存在 与 发 展 , 一 般 使 用 某 种 操作 活动 来 定义 ,并 用 能 体 
现 这 种 操作 活动 的 项 目 来 间接 测量 。 例 如 ,吉尔 福 德 (T. Guilford) 认 为 ,创造 力 是 发 散 性 
思维 的 外 部 表现 ,是 人 对 一 定 刺激 产生 大 量 的 、 变 化 的 、 独 创 性 的 反应 能 力 。 根 据 这 一 理 
论 , 他 认为 创造 力 测量 应 重点 测量 人 的 思维 的 流畅 性 、 变 通 性 和 独特 性 。 如 果 有 足够 的 证 
据 证 明 测 量 的 项 目 能 测 到 这 些 特 性 ,那么 就 可 认为 测验 的 结构 效 度 高 。 如 果实 际 测量 的 
资料 无 法 证 实 理论 假设 ,那么 可 能 存在 两 种 情况 : 一 是 理论 假设 本 身 不 成 立 ;二 是 测量 的 
效 度 不 高 。 

根据 结构 效 度 的 定义 ,我 们 可 以 知道 结构 效 度 有 以 下 特点 。 

(1) 结构 效 度 的 大 小 首先 取决 于 事先 假定 的 理论 结构 。 然 而 .对 于 同一 种 理论 结构 ,不 
同 的 群体 可 能 有 不 同 的 定义 或 假设 ,这 使 得 关于 该 理论 结构 的 测验 的 效 度 难 以 比较 。 

(2) 当 实际 测量 的 资料 无 法 证 实 所 采用 的 理论 假设 时 ,不 一 定 就 表明 该 测验 的 结构 效 
度 不 高 。 其 原因 可 能 是 ,所 采用 的 理论 假设 本 身 就 不 成 立 ,或 者 该 研究 设计 不 能 对 该 理论 假 
设 进行 有 效 地 检验 。 

(3) 结构 效 度 不 是 由 单一 的 数量 指标 来 描述 ,而 是 通过 各 种 证 据 累积 起 来 确定 的 。 

(二 ) 结构 效 度 的 评估 方法 

结构 效 度 关注 心理 学 理论 在 测验 编制 中 的 作用 ,也 关注 所 提出 的 研究 假设 。 测 量 一 个 
抽象 的 心理 特质 需要 研究 者 具有 观察 和 测量 相关 行为 的 能 力 。 考 察 结构 效 度 时 ,与 心理 测 
验资 料 进 行 比较 的 是 概念 性 的 心理 结构 。 在 进行 结构 效 度 评估 时 , 先 要 确定 理论 结构 ,再 进 
行 结构 效 度 估计 与 验证 。 总 的 来 说 ,结构 效 度 的 评估 包括 以 下 三 个 步 又。 

第 一 步 , 提 出 理论 结构 (理论 ) ,这 就 是 <Y”。 

第 二 步 , 设 计 和 编制 测验 进行 实际 测量 (实际 ) .这 就 是 “X”。 

第 三 步 , 验 证 实际 测量 与 理论 结构 的 符 ( 吻 ) 合 程度 ,这 就 是 *X 一 Y”。 

对 结构 效 度 进行 评估 ,主要 有 以 下 几 种 方法 。 
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1. 测验 内 部 检验 法 

测验 内 部 检验 法 是 通过 考察 测验 内 部 结构 来 界定 理论 结构 ,从 而 为 结构 效 度 提供 证 据 
的 方法 。 使 用 测验 内 部 检验 法 考察 测验 的 结构 效 度 ,其 步骤 如 下 。 

首先 ,可 以 考察 测验 的 内 容 效 度 , 因 为 有 些 测验 对 所 测 内 容 或 行为 范围 的 定义 或 解释 类 
似 于 理论 结构 的 解释 ,所 以 ,在 一 定 程度 上 ,内 容 效 度 高 实质 上 也 说 明 结 构 效 度 高 。 

其 次 ,可 以 分 析 被 试 的 答题 过 程 , 若 有 证 据 表 明 某 一 题目 的 作答 除了 反映 和 欲 测 的 特质 
外 ,还 反映 其 他 影响 因素 , 则 说 明 该 题 没有 很 好 地 体现 理论 结构 ,该 题 的 存在 可 能 会 影响 结 
构 效 度 ,应 考虑 剔除 。 

最 后 ,可 以 通过 计算 测验 的 同 质 性 信 度 的 方法 来 检测 结构 效 度 。 如 果 测 验 结果 表明 该 
测验 的 同 质 性 信 度 不 高 ,那么 一 般 可 断定 该 测验 的 结构 效 度 不 高 。 当 然 ,需要 说 明 的 是 , 测 
验 的 同 质 性 信 度 高 并 不 一 定 就 代表 测验 的 结构 效 度 高 。 实 际 上 ,测验 的 同 质 性 高 只 是 结构 
效 度 高 的 必要 而 非 充分 条 件 。 

2. 测验 之 间 比 较 法 

测验 之 间 比 较 法 是 通过 考察 新 编 测验 与 某 个 已 知 结构 效 度 测验 之 间 的 相关 ,来 评估 新 
编 测验 的 结构 效 度 。 一 般 来 说 ,可 以 将 新 编 测验 与 以 下 两 种 已 知 的 旧 测 验 作 比 较 。 

第 一 ,与 另 一 个 测 查 相同 结构 的 测验 作 比 较 。 把 新 编 测验 与 另 一 个 已 知性 质 相 同 
的 且 被 公认 为 具有 较 高 结构 效 度 的 旧 测 验 作 比较 ,考察 它们 之 间 的 相关 ,这 种 方法 叫 相 
容 效 度 法 (congruent validity) 。 若 两 者 相关 较 高 , 则 可 认为 新 编 测验 也 具有 较 高 的 结构 
效 度 。 

第 二 ,与 另 一 个 测 查 不 同 结构 的 测验 作 比 较 。 一 个 有 效 的 测验 不 仅 应 与 测量 相同 心 
理 特 质 的 测验 具有 较 高 的 相关 ,而 且 还 应 与 测量 不 同心 理 特质 的 测验 具有 较 低 的 相关 。 
把 新 编 测验 与 另 一 个 已 知 的 能 够 有 效 测量 不 同心 理 特质 的 旧 测 验 作 比较 ,考察 它们 之 间 
的 相关 ,这 种 方法 叫 区 分 效 度 法 (discriminant validity) 。 若 两 者 相关 较 低 , 则 可 认为 新 编 测 
验 结构 效 度 较 高 。 但 是 ,两 测验 之 间 相 关 较 低 只 是 新 编 测验 效 度 较 高 的 必要 而 非 充分 
条 件 。 

测验 之 间 比 较 法 主要 包括 多 元 特质 一 多 重 方法 和 因素 分 析 。 

(1) 多 元 特质 一 多 重 方法 

在 介绍 此 方法 之 前 , 先 介绍 两 种 效 度 : 聚合 效 度 (convergent validity) 和 区 分 效 度 
(discriminant validity) 。 聚 合 效 度 又 叫 会 聚 效 度 或 求 同 效 度 , 是 指 某 一 新 编 测验 的 分 数 与 已 
知 的 测量 同一 结构 的 其 他 测验 分 数 之 间 的 相似 性 证 据 。 区 分 效 度 是 指 某 一 新 编 测验 分 数 与 
已 知 的 测量 不 同 结构 的 其 他 测验 分 数 之 间 的 相似 性 证 据 。 例 如 ,一 个 数学 推理 能 力 测验 与 
数学 成 绩 的 相关 是 聚合 效 度 ,与 阅读 成 绩 的 相关 则 是 区 分 效 度 。 需 要 注意 的 是 ,这 里 的 聚合 
效 度 仅仅 是 相 容 效 度 法 的 一 种 表现 形式 。 

坎贝尔 (D. T. Campbell) 和 菲 斯 克 (D. W. Fiske) F 1959 年 提出 了 一 种 适合 对 聚合 效 度 
和 区 分 效 度 进行 检验 的 方法 ,是 聚合 效 度 和 区 分 效 度 两 种 方法 的 综合 应 用 , 称 为 多 元 特质 一 
多 重 方法 (MultiTrait - MultiMethod,MTMM)。 这 种 方法 的 原理 是 : 车 采用 两 种 或 两 种 以 
上 的 方法 测量 两 种 或 两 种 以 上 的 特质 , 则 测量 结构 之 间 可 以 形成 一 个 多 元 特质 一 多 重 方法 
矩阵 ,如 表 4-3 所 示 。 
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表 4-3 一 个 多 元 特质 一 多 重 方法 矩阵 示例 
方法 1 方法 2 方法 3 
A B GQ A B CG As 了 G 


特质 


方法 1 B 


方法 2 B 


a 
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AN 
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在 表 4- 3 P AREH = AIK CA KA BANA EENE A = A CS E tL 
性 、 成 就 动机 ) 进 行 测量 ,其 中 A 表示 在 自 陈 量 表 上 的 支配 性 分 数 ,B, 表示 在 投射 测验 上 的 
社会 性 分 数 ,Cs 表示 在 同伴 评价 测验 上 的 成 就 动机 分 数 ,其 余 以 此 类 推 。 

在 表 4-3 中 ,对 角 线 括号 内 的 数字 为 信和 度 系数 ,可 理解 为 重 测 信 度 ,三 角形 之 外 其 余 的 
数字 为 效 度 系数 , 即 用 不 同方 法 测量 同一 特质 的 相关 系数 。 在 表 4- 3 中 , 实 线 三 角形 内 为 
同一 方法 测量 不 同 特质 所 得 结果 之 间 的 相关 ;虚线 三 角形 内 为 不 同方 法 测量 不 同 特质 之 间 
的 相关 。 

从 表 4-3 中 的 多 元 特质 一 多 重 方法 矩阵 ,可 以 得 到 以 下 效 度 资 料 。 

第 一 ,聚合 效 度 。 在 表 4- 3 中 ,聚合 效 度 表 示 不 同方 法 测量 同一 特质 的 相关 ,如 表 4-3 
中 的 0.57(Ai 一 A:)、0. 57 (B, — B), 0. 46(C, — C2), 0. 67 CA; — As). 0. 66(B: — B,), 
0. 58(C, —C,) .0.56(A 一 A:) .0.58(B, — B; ) 0. 45(C 一 Cs ) 。 一 般 地 , 若 不 同方 法 测量 同 
一 特质 的 相关 越 高 , 则 聚合 效 度 越 高 。 对 于 表 4- 3, 不 同方 法 测量 同一 特质 的 相关 介 于 
0. 45 一 0. 67 之 间 ,相关 相对 较 高 ,表明 该 测验 的 聚合 效 度 较 高 。 

第 二 ,区 分 效 度 。 使 用 多 元 特质 一 多 重 方法 矩阵 考察 区 分 效 度 时 ,应 该 选择 相关 性 较 弱 
的 一 对 特质 。 那 么 ,无 论 是 使 用 相同 方法 还 是 不 同方 法 测量 不 同 特质 ,测量 结果 之 间 的 相关 
都 应 该 相对 较 低 。 如 果 在 矩阵 中 可 以 说 明 这 一 点 ,那么 说 明 该 测验 具备 了 区 分 效 度 的 证 据 ， 
相关 程度 越 低 ,区 分 效 度 越 高 。 在 表 4- 3 中 ,特质 A 与 特质 B 的 相关 分 别 为 : 0. 51、0. 22, 
0. 23,0, 22,0. 22,0. 68,0, 43,0. 42,0. 67; 特 质 A 与 特质 C 的 相关 分 别 为 : 0.38.0. 11.0. 11、 
0.09、0.11、0.59、0. 34、0.33、0. 58; 特 质 了 B 与 特质 C 的 相关 分 别 为 : 0. 37、0. 11.0. 11,0. 10、 
0.12、0.58、0. 32,0. 34、0.60。 在 这 三 对 特质 的 相关 中 ,特质 A 与 特质 C 的 相关 最 低 , 多 达 7 
个 相关 系数 都 在 0.40 以 下 ,最 大 的 相关 也 在 0.60 以 下 (只 有 0. 59) ,这 表明 特质 A 与 特质 C 
的 相关 程度 相对 较 低 ,同时 也 表明 该 测验 的 区 分 效 度 较 高 。 

第 三 ,从 理论 上 说 ,以 不 同方 法 测量 同一 特质 的 相关 应 当 最 高 ,以 相同 方法 测量 不 同 特质 
的 相关 次 之 ,以 不 同方 法 测量 不 同 特质 的 相关 最 低 。 在 表 4 一 3 中 ,raa, 一 0.57,rua 一 0.51， 
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ra 一 0. 22, 满 足 ma Sraa, Dran, ,说 明 该 测验 满足 具备 较 高 结构 效 度 的 “相关 "要 求 。 

总 之 ,如 果 一 套 测验 以 多 元 特质 一 多 重 方法 矩阵 进行 分 析 , 所 得 结果 符合 上 述 三 方面 的 
要 求 , 则 说 明 该 测验 具有 较 高 的 结构 效 度 。 

(2) 因素 分 析 

因素 分 析 是 一 种 多 元 统计 方法 ,是 一 种 确定 心理 结构 的 方法 ,其 目的 是 把 具有 相同 性 质 
的 项 目 通过 某 些 方法 归结 为 数量 较 少 的 概括 性 比较 高 的 共同 因素 ,并 以 此 作为 欲 测 心理 结 
构 对 测验 作出 的 解释 。 目 前 ,因素 分 析 包 括 探索 性 因素 分 析 (Exploratory Factor Analysis, 
EFA) 和 验证 性 因素 分 析 (Confirmatory Factor Analysis, CFA) 两 类 。 一 般 情况 下 ,我 们 都 
是 先 通 过 探索 性 因素 分 析 , 从 相关 的 许多 因素 中 , 找 出 对 欲 测 现象 起 决定 性 作用 的 基本 因 
素 ,并 确定 其 相对 重要 性 ,以 此 来 获得 结构 效 度 的 信息 。 例 如 ,对 艾 森 克 人 格 问卷 作 因素 分 
析 , 可 以 得 到 4 个 因素 : 内 外 向 了 神经 质 N、 精 神 质 P .说谎 工 ,这 就 是 探索 性 因素 分 析 的 实 
例 。 验 证 性 因素 分 析 宜 使 用 与 探索 性 因素 分 析 不 同 的 数据 ,来 验证 已 经 提出 的 测验 结构 假 
设 模型 的 有 效 性 。 目 前 ,进行 因素 分 析 的 常用 软件 包括 LISREL, AMOS 和 M - Plus 等 。 

一 般 地 ,将 探索 性 因素 分 析 应 用 于 结构 效 度 评估 的 具体 过 程 如 下 。 

第 一 ,根据 原始 资料 (测验 分 数 ) 求 出 每 一 道 或 每 一 类 题目 间 的 相关 和 矩阵。 

第 二 ,从 相关 和 矩阵 中 抽取 适当 数目 的 共同 因素 ,常用 的 方法 包括 主 成 分 法 、 最 大 似 然 法 、 
a 因子 提取 法 等 。 

第 三 ,进行 因素 轴 的 旋转 ,目的 是 设法 找到 新 产生 的 参照 轴 ,使 因素 内 部 负荷 量 ( 即 题目 
与 因素 的 相关 ) 之 间 差 异 尽 可 能 大 ,进一步 明确 变量 与 因素 之 间 的 关系 ,常用 的 方法 包括 方 
差 最 大 旋转 ,平均 正 交 旋 转 、 斜 交 旋 转 等 。 

第 四 ,对 因素 进行 命名 。 根 据 每 个 因素 所 包含 题目 的 意义 及 含义 ,进行 因素 命名 。 

第 五 ,将 各 因素 的 性 质 与 欲 测 的 测验 结构 进行 对 照 , 找 出 需要 的 因素 , 求 其 方差 在 测验 
总 方差 中 的 比例 ,所 得 结果 便 是 测验 的 结构 效 度 。 

一 般 地 ,将 验证 性 因素 分 析 应 用 于 结构 效 度 评估 的 具体 过 程 如 下 。 

第 一 ,模型 界定 。 对 观测 变量 的 数目 、 潜 在 变量 的 数目 、 观 测 变 量 与 潜在 变量 的 关系 ,以 
及 潜在 变量 之 间 的 关系 等 ,作出 理论 结构 的 假定 ,并 用 模型 的 形式 表现 出 来 。 

第 二 ,模型 估计 。 根 据 所 假定 的 模型 ,对 数据 进行 参数 估计 , 估 出 模型 的 方程 解 及 若干 
指标 等 结果 。 

第 三 ,模型 评价 。 对 模型 估计 的 结果 进行 评价 ,可 用 x? /d ff. CFI TLI, SRMR,RMSEA 
等 指标 来 评价 所 选 模型 的 性 能 ,以 评估 其 结构 效 度 。 通 常 的 要 求 是 y /df<5,CFI>0. 90, 
TLIZ0. 90,SRMR<0. 08, RMSEA<0. 08. 

第 四 ,模型 修正 。 根 据 模型 评价 的 结果 ,对 模型 进行 简化 和 改进 ,最 终 得 到 一 个 最 佳 的 

通过 因素 分 析 考 察 测验 的 结构 效 度 ,如 果 因 素 内 部 负荷 量 较 大 ,属于 因素 内 部 的 题目 相 
关 较 高 ,那么 测验 的 结构 效 度 较 高 ,这 体现 了 测验 的 “ 相 容 效 度 ”。 类 似 地 ,如 果 因 素 之 间 相 
关 较 低 , 属 于 不 同 因 素 的 题目 相关 较 低 ,那么 测验 的 结构 效 度 也 较 高 ,这 体现 了 测验 的 “区 分 
效 度 ”。 

3. 实证 效 度 法 

当 一 个 测验 有 实证 ( 效 标 ) 效 度 时 ,就 可 以 用 该 测验 所 预测 的 效 标 , 作 为 该 测验 结构 效 度 
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的 指标 。 可 以 先 根据 效 标 把 被 试 分 为 两 类 , 即 高 分 组 和 低 分 组 ,考察 其 得 分 的 差异 ,再 根据 
测验 的 分 数 ,考察 两 组 人 在 所 测 特质 方面 是 否 有 显著 性 差异 。 如 果 两 组 人 在 所 测 特 质 方面 
有 显著 性 差异 ,那么 说 明 该 测验 具有 较 高 的 结构 效 度 。 

4. 实验 操作 法 和 对 发 展 水 平 变化 的 考察 法 

(1) 实验 操作 法 

结构 效 度 也 可 以 通过 控制 某 些 实验 条 件 ,观察 不 同 实验 条 件 对 测验 分 数 的 影响 ,来 进行 
评估 。 一 般 来 说 ,具体 的 实验 操作 法 包括 训练 法 、 分 组 实验 法 等 。 若 实验 检验 结果 与 预期 比 
较 相 符 , 则 说 明 该 测验 具有 较 高 的 结构 效 度 。 

(2) 对 发 展 水 平 变化 的 考察 法 

对 于 某 些 心理 特质 (如 智力 等 ) ,其 发 展 水 平 的 变化 对 测验 结构 可 以 产生 显著 性 影响 。 
可 以 通过 比较 两 个 不 同 发 展 水 平 的 被 试 组 在 同一 测验 上 的 结果 ,看 其 测验 成 绩 是 否 随 发 展 
水 平 的 变化 而 变化 ,以 此 来 考察 测验 的 结构 效 度 。 对 发 展 水 平 变化 的 考察 主要 有 以 下 两 种 。 

第 一 ,考察 年 龄 产生 的 发 展 变化 。 在 一 些 传 统 的 智力 测验 中 , 效 度 分 析 的 一 种 主要 参考 
指标 是 年 龄 差异 。 一 般 认为 儿童 的 各 种 能 力 在 儿童 期 会 随 年 龄 而 增长 ,因此 如 果 测 验 有 效 ， 
那么 测验 成 绩 也 应 随 年 龄 而 提高 。 当 然 ,测验 成 绩 随 年 龄 而 提高 也 不 一 定 能 说 明 该 测验 的 
效 度 就 高 ,这 只 是 一 个 必要 条 件 。 需 要 说 明 的 是 ,年 龄 差异 分 析 只 适合 某 些 特定 的 心理 特质 
而 非 所 有 的 心理 特质 。 

第 二 ,考察 教育 与 训练 的 提升 效应 。 有 效 的 教育 与 训练 可 以 提高 被 试 的 某 种 特质 水 平 ， 
如 果 测验 有 效 ,那么 这 种 水 平 的 提升 也 应 在 测验 分 数 上 体现 出 来 ,表现 为 后 测 分 数 比 前 测 分 
数 显 著 提 高 。 

三 ) 结构 效 度 的 应 用 

一 般 来 说 ,测验 应 用 的 关注 点 不 在 于 个 体 单个 的 ,独立 的 事件 或 行为 ,而 在 于 由 多 个 独 
立 的 事件 或 行为 所 组 成 的 整体 的 事件 或 行为 。 这 些 整体 的 事件 或 行为 可 能 蕴含 着 某 种 具有 
潜在 规律 的 特质 而 组 成 的 理论 结构 。 因 此 ,测验 对 个 体 或 团体 的 评价 是 从 对 独立 事件 或 行 
为 的 观察 和 描述 转向 对 某 种 特质 或 属性 的 测量 。 显 然 , 如 果 一 个 测验 具有 和 良好 的 结构 效 度 ， 
而 个 体 在 此 测验 上 得 到 良好 的 成 绩 ,那么 我 们 可 以 认为 该 个 体 在 此 测验 所 测 的 特质 上 具有 
较 好 的 水 平 。 相 反 ,如果 一 个 测验 不 具有 良好 的 结构 效 度 , 那 么 我 们 可 以 认为 此 测验 不 能 较 
好 地 测 出 欲 测 的 特质 ,个 体 在 此 测验 的 得 分 也 不 能 较 好 地 得 以 解释 。 例 如 ,在 智力 测验 中 ， 
如 果 测 验 结构 效 度 高 ,那么 在 该 测验 上 得 高 分 的 被 试 则 被 认为 是 具有 高 智力 的 ;如 果 测 验 结 
构 效 度 低 ,说 明 该 测验 所 测 真正 特质 我 们 并 不 知道 ,那么 在 该 测验 上 得 高 分 的 被 试 是 具有 高 
智力 的 这 种 推论 显然 不 合理 。 因 此 ,对 任何 一 个 测验 的 结果 作出 合理 解释 的 首要 前 提 是 获 
取 该 测验 的 结构 效 度 资料 。 简 单 来 说 ,结构 效 度 是 任何 一 个 测验 都 必须 具备 的 。 但 是 ,与 内 
容 效 度 不 同 ,结构 效 度 最 主要 用 于 智力 测验 和 人 格 测验 。 

(四 ) 对 结构 效 度 的 评价 

结构 效 度 旨 在 考察 测验 的 结果 是 否 能 证 实 或 解释 某 一 理论 结构 ,以 及 证 实 或 解释 的 程 
度 如 何 。 结 构 效 度 最 适合 于 测量 抽象 概念 的 测验 ,如 智力 测验 、 人 格 测验 等 。 结 构 效 度 是 三 
种 常用 效 度 中 最 有 说 服 力 的 一 种 。 相 比 之 下 ,内 容 效 度 太 过 于 “主观 ”, 而 效 标 效 度 太 过 于 
“客观 ”, 只 有 结构 效 度 既 不 是 太 过 于 “主观 ”, 也 不 是 太 过 于 “客观 ”。 
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一 、 测 量 的 效 度 的 影响 因素 


效 度 是 评价 一 个 测验 优 劣 的 重要 指标 。 对 于 一 个 测验 来 说 ,即便 它 有 使 用 简便 、 适 用 性 
广 等 多 种 优点 ,但 如 果 没 有 可 接受 的 效 度 ,这 个 测验 的 有 效 性 有 限 ,那么 测验 的 结果 也 不 能 
令 人 信服 。 效 度 是 测验 开发 编制 与 施 测 应 用 全 部 过 程 总 体质 量 的 反映 。 影 响 测 量 的 效 度 的 
因素 有 很 多 ,凡是 能 产生 随机 误差 和 系统 误差 的 因素 都 是 影响 测量 的 效 度 的 因素 。 如 此 看 
来 , 效 度 影 响 因素 主要 包括 随机 误差 和 系统 误差 。 测 量 的 效 度 贯 穿 于 测验 编制 和 使 用 的 整 
个 过 程 , 可 对 测验 产生 重要 影响 。 因 此 ,只 有 了 解 了 影响 效 度 的 种 种 因素 后 ,才能 相应 地 找 
出 提高 测量 的 效 度 的 方法 。 影 响 测量 的 效 度 的 主要 因素 包括 以 下 几 个 方面 。 

(一 ) 测量 的 信 度 

从 之 前 的 内 容 曾 述 中 ,我 们 知道 信 度 与 效 度 具 有 内 在 的 联系 。 根 据 信 度 和 效 度 的 测量 
学 定义 可 得 
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2 
由 于 号 >>0, 因 此 ra Srv. 由 此 可 见 , 效 度 受到 信 度 的 制约 。 


此 外 ,根据 经 典 测验 理论 ,由 于 信 度 主要 受 随 机 误差 的 影响 ,因此 当 测量 的 随机 误差 减 
小 时 , 真 分 数 方差 比例 相应 增 大 ,信和 度 随 之 提高 。 然 而 , 效 度 同时 受 随机 误差 和 系统 误差 的 
影响 , 真 分 数 方差 比例 的 增 大 只 是 为 效 度 的 提高 提供 了 可 能 。 因 此 ,测量 的 信 度 的 提高 可 以 
增 大 真 分 数 方差 的 比例 ,这 在 一 定 程度 上 也 可 以 使 测量 的 效 度 也 相应 地 提高 。 如 此 看 来 , 信 
度 是 影响 效 度 的 因素 之 一 。 因 此 ,提高 信 度 的 所 有 方法 均 适 用 于 提高 效 度 。 例 如 ,增加 适量 
的 测验 项 目 、 控 制 测验 项 目的 难度 、 提 高 测验 项 目的 区 分 度 等 均 可 以 提高 测量 的 效 度 。 

(=) 效 标的 因素 

同一 测验 可 以 有 不 同 的 效 标 , 同 一 效 标 可 以 有 不 同 的 效 标 测量 。 在 效 标 效 度 的 评估 中 ， 
不 同 的 效 标 可 能 会 产生 不 同 的 效 度 ,所 以 选择 合适 的 效 标 ,使 之 与 所 测 特质 最 为 相似 ,是 提 
高 效 度 的 有 效 方法 。 选 择 效 标 时 需要 考虑 效 标 能 否 体现 真正 意义 上 的 效 标 、. 效 标 是 否 可 行 、 
效 标 能 否 顺 利 收集 、 效 标 能 否 用 数字 或 等 级 表示 等 。 

此 外 ,还 需要 考虑 效 标 测量 的 影响 。 效 标 测 量 的 不 同方 法 、 效 标 测量 的 信 度 、 效 标 测量 
的 误差 控制 等 ,也 会 对 测量 的 效 度 造 成 影响 。 效 标 分 数 往往 在 稳定 性 上 存在 问题 , 即 在 不 同 
的 时 间 和 情境 中 ,同一 个 人 的 效 标 分 数 可 能 会 有 相当 大 的 波动 。 效 标 测量 过 程 中 产生 的 误 
差 会 使 效 标 分 数 不 能 很 好 地 代表 相应 的 心理 特质 水 平 的 高 低 。 为 了 减少 效 标 测量 过 程 中 产 
生 的 误差 ,我们 可 以 对 效 标 分 数 进 行 多 次 测量 , 求 其 平均 值 ,以 此 作为 可 靠 的 效 标 分 数 ,来 提 
高 测量 的 效 度 。 因 此 , 尽 可 能 选择 合适 的 效 标 ,改善 效 标 测量 的 质量 ,是 提高 测量 的 效 度 的 
有 效 方法 。 
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(三 ) 测验 的 构成 

内 容 效 度 和 结构 效 度 要 求 组 成 测验 的 项 目 能 较 好 地 代表 测验 所 要 测量 的 内 容 和 结构 。 
因此 ,在 编制 测验 时 ,要 充分 考虑 测验 项 目 对 欲 测 内 容 和 结构 的 代表 性 。 

另外 ,测验 的 长 短 也 会 影响 测量 的 效 度 。 有 时 候 , 延 长 测验 能 提高 测量 的 效 度 ,但 是 测 
验 不 能 无 限 延 长 ,测验 长 度 与 测量 的 效 度 之 间 存 在 以 下 关系 : 

Krxy 

VK Oryx +Krix) 

在 公式 (4 一 8) 中 ,rowwy 为 新 测验 的 效 度 系数 ,是 测验 X 延长 至 原来 的 K 售后 ,新 测验 
与 效 标 Y 的 相关 ;rxy 是 原 测验 的 效 度 系数 ;rxx 是 原 测验 的 信 度 系数 。 

由 此 可 见 , 测 验 的 构成 也 是 影响 测量 的 效 度 的 因素 之 一 。 

(四 ) 被 试 团体 的 性 质 

同一 测验 对 于 不 同 的 被 试 团体 而 言 测 出 来 的 结果 可 能 完全 不 同 ,所 测 的 可 能 是 不 同 的 
特质 。 例 如 ,物理 学 习 中 动量 定理 的 问题 ,对 于 已 经 学 过 动量 定理 的 学 生来 说 , 测 出 的 是 学 
习 效 果 , 反 映 的 是 记忆 人 能力。 而 对 于 没有 学 习 过 动量 定理 的 学 生来 说 ,他 们 需要 根据 之 前 所 
学 的 动能 定理 .能量 守恒 等 知识 来 理解 和 推导 动量 定理 ,此 时 所 测 结果 反映 的 是 逻辑 思维 和 
运算 推理 能 力 。 因 此 ,同一 测验 施 测 于 不 同性 质 的 被 试 团体 所 得 的 结果 可 能 大 不 一 样 ,所 得 
的 效 度 自 然 也 就 不 同 。 被 试 团 体 的 年 龄 性别、 职业 、 教 育 水 平 . 生 活 背 景 等 均 会 影响 测量 的 

被 试 的 生理 状态 (如 感冒 、 头 痛 、 抽 搞 等 ) 和 被 试 的 心理 状态 (如 焦虑 ,厌烦 、 惊 轴 等 ), 均 
会 对 测验 的 结果 产生 影响 ,使 测验 分 数 有 可 能 包含 大 的 随机 误差 ,对 测量 的 效 度 也 会 产生 
影响 。 

由 此 可 见 ,报告 测量 的 效 度 时 ,也 应 报告 被 试 团体 的 基本 信息 资料 。 

(五 ) 效 度 的 评估 方法 

测量 的 效 度 的 评估 有 很 多 种 方法 ,显然 ,采用 不 同 的 效 度 的 评估 方法 可 能 得 到 不 同 的 效 
度 。 为 了 选择 合适 的 效 度 的 评估 方法 ,得 到 合适 的 效 度 ,一 般 应 根据 测验 的 目的 来 确定 。 例 
如 ,成 就 测验 注重 内 容 效 度 ,而 职业 测验 注重 效 标 效 度 等 。 从 前 面 的 阐述 中 我 们 也 知道 , 结 
构 效 度 是 测验 中 最 为 重要 的 ,在 测验 分 数 解释 上 有 着 重要 的 作用 ,因此 结构 效 度 对 于 任何 测 
验 来 说 都 是 不 可 缺少 的 。 不 同 的 效 度 的 评估 方法 会 得 到 不 同 的 效 度 ,因此 效 度 的 评估 方法 
也 是 影响 测量 的 效 度 的 因素 之 一 。 


二 、 测 量 的 效 度 的 提高 方法 


为 了 提高 测量 的 效 度 ,我 们 在 编制 测验 ,实施 测验 ,收集 数据 时 ,都 应 该 尽 可 能 地 控制 随 
机 误差 , 减 小 系统 误差 ,按照 科学 的 要 求 做 好 测量 工作 。 除 了 尽 可 能 地 减少 或 控制 上 一 部 分 
所 提 到 的 影响 因素 外 ,这 里 我 们 再 列举 一 些 具 体 的 方法 ,加 以 强调 和 补充 。 

(一 ) 精心 编制 测验 ,避免 出 现 较 大 的 系统 误差 

要 想 编制 一 份 好 的 测验 ,需要 精心 设计 测验 ,避免 出 现 较 大 的 系统 误差 。 要 保证 测验 具 
有 较 高 效 度 ,测验 本 身 的 因素 要 做 到 以 下 几 个 方面 。 

(1) 测验 内 容 适 合 测验 目的 ,应 涵盖 所 有 应 测 的 领域 , 且 各 部 分 所 占 权 重 科学 ,避免 出 
现 题 目 偏 倚 。 
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(2) 测验 材料 必须 对 整个 内 容 具 有 代表 性 。 

(3) 项 目 表 述 清晰 简明、 准确 、 易 理解 。 

(4) 项 目 难度 适中 ,区 分 度 较 高 。 

(5) 测验 指导 语 、 项 目 作答 要 求 明确 ,有 客观 、 合 理 的 评分 标准 。 

(6) 试卷 印刷 清晰 ,测验 操作 器 材 精良 ,不 出 现 错误 遗漏 现象 。 

(=) 妥善 组 织 测 验 , 创 设 规 范 化 的 测试 情境 , 尽 可 能 控制 随机 误差 

在 测验 实施 过 程 中 ,系统 误差 一 般 不 太 明 显 ,但 随机 误差 却 可 能 明显 出 现 。 一 个 好 的 测 
验 , 如 果 施 测 组 织 工作 不 合理 ,那么 就 会 大 大 增加 随机 误差 出 现 的 可 能 性 。 如 果 妥 善 组 织 测 
验 , 严 格 按照 测验 指导 语 进行 施 测 ,那么 就 可 以 尽量 减少 随机 误差 的 影响 。 此 外 ,创设 规范 
化 的 测试 情境 ,可 以 避免 给 被 试 带 来 生理 ,心理 上 的 影响 (比如 过 分 焦虑 使 被 试 水 平 失常 
等 ), 尽 量 让 每 个 被 试 都 能 发 挥 正常 水 平 , 尽 可 能 控制 随机 误差 。 主 试 可 以 在 测试 前 让 被 试 
调整 好 心态 ,做 好 生理 ,心理 和 知识 上 的 准备 ,在 测试 时 让 被 试 处 于 一 个 理想 的 状态 ,这 在 一 
定 程 度 上 可 以 提高 测量 的 效 度 ,使 测验 最 大 限度 地 测 到 和 欲 测 的 内 容 和 结构 。 

(三 ) 选择 正确 的 效 标 ,定好 合适 的 效 标 测量 ,避免 出 现 效 标 污染 

在 评价 一 个 测验 是 否 有 效 时 , 效 标 选择 是 一 个 需要 重点 考虑 的 方面 。 如 果 所 选 效 标 不 
恰当 或 者 所 选 效 标 无 法 测量 ,那么 主 试 很 难 估计 出 测量 的 实证 效 度 。 如 果 效 标 和 效 标 测量 
都 未 达到 较为 理想 的 状态 ,那么 就 有 可 能 出 现 效 标 污染 。 在 实际 测量 过 程 中 ,应 该 尽量 选择 
正确 的 效 标 ,定好 合适 的 效 标 测量 ,避免 出 现 效 标 污染 。 


测量 的 效 度 是 衡量 测验 整体 质量 高 低 的 重要 指标 。 效 度 是 测验 测 到 它 打算 要 测 的 心 
理 特质 的 程度 。 可 以 从 多 个 方面 对 效 度 进行 验证 ,包括 内 容 效 度 、 效 标 效 度 和 结构 效 度 
等 。 影 响 效 度 的 因素 是 多 方面 的 ,如 测量 的 信和 度 、 效 标的 因素 ,测验 的 构成 、 被 试 团体 的 性 
质 \ 效 度 的 评估 方法 等 。 要 提高 测量 的 效 度 应 该 从 多 个 方面 加 以 提高 和 改进 ,如 精心 编制 
测验 ,妥善 组 织 测验 、 选 择 正确 的 效 标 等 。 学 习 本 章 有 助 于 理解 效 度 定义 ,掌握 效 度 估计 ， 
了 解 效 度 影 响 因素 等 。 本 章 的 重点 是 准确 理解 效 度 定义 的 内 涵 , 难 点 是 有 效 区 分 不 同 效 
度 的 适用 范围 。 本 章 的 中 心 概念 是 “ 效 度 三 要 素 ”, 即 如 何 有 效 区 分 和 构建 不 同 种 类 的 
YY, 


一 、 选 择 题 (不 定 项 选择 题 ,至 少 有 一 个 选项 是 正确 的 ) 
1. 若 某 测验 的 效 度 系数 是 0.70, 则 在 测验 中 无 法 作出 正确 预测 的 比例 是 ( ) 
A. 0.30 B. 0.51 C. 0.49 D: 0.70 
2. 一 个 测验 所 测量 的 与 要 测量 的 心理 特质 之 间 符 ( 吻 ) 合 的 程度 ,是 指 测量 的 (  ) 


A. fi B. 难度 C. 区 分 度 D. 效 度 
3. 一 个 好 的 效 标 应 具备 的 条 件 包括 ce J 
A. 效 标 必须 具有 较 高 的 信 度 B. 效 标 必须 具有 较 高 的 效 度 


C. 效 标 可 以 客观 地 加 以 测量 D. 效 标 测量 简单 .省 时 、 经 济 
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4. 一 个 测验 的 内 容 效 度 主要 与 ( ) 有 关 。 € $ 
A. 测验 人 数 B. 测验 时 间 C. 测验 长 度 D. 测验 题目 

5. 内 容 效 度 有 时 也 称 为 ( ) 
A. 逻辑 效 度 B. 结构 效 度 C. 实证 效 度 D. 效 标 效 度 

6. 提高 测量 的 效 度 的 方法 包括 G ¥ 
A. 精心 编制 测验 ,避免 出 现 较 大 的 系统 误差 
B. 妥善 组 织 测验 , 尽 可 能 控制 随机 误差 
C. 创设 规范 化 的 测试 情境 ,尽量 让 每 个 被 试 都 能 发 挥 正常 水 平 
D. 选择 正确 的 效 标 ,定好 合适 的 效 标 测量 ,避免 出 现 效 标 污染 

7. 要 保证 测验 具有 较 高 效 度 ,测验 本 身 的 因素 要 做 到 ¢ | 
A. 测验 材料 必须 对 整个 内 容 具 有 代表 性 
B. 项 目 表 述 清晰 简明、 准确 、 易 理解 
C. 测验 难度 适中 ,区 分 度 较 高 
D. 测验 指导 语 、 项 目 作 答 要 求 明 确 , 有 客观 、 合 理 的 评分 标准 

8. ¢ ) 是 一 种 检验 测验 分 数 能 否 有 效 地 区 分 由 效 标 所 定义 的 团体 的 方法 。 C ) 
A. 相关 法 B. 区 分 法 C. 命中 率 法 D. 失误 法 

9. 在 经 典 测验 理论 中 , 效 度 被 定义 为 在 一 组 测量 中 ,与 测量 目标 有 关 的 真 分 数 方差 与 

( ) 的 比率 。 £ ) 

A. 系统 误差 分 数 方差 B. 误差 分 数 方差 
C. 随机 误差 分 数 方差 D. 观察 分 数 方差 

10. 结构 效 度 的 估计 方法 包括 C ) 
A. 测验 内 部 检验 法 
B. 测验 之 间 比 较 法 
C. 实证 效 度 法 
D. 实验 操作 法 和 对 发 展 水 平 变化 的 考察 法 

11. 根据 效 标 资料 收集 的 时 间 差 异 , 效 标 效 度 可 以 分 为 © J 
A. 相 容 效 度 B. 预测 效 度 C. 区 分 效 度 D. 同时 效 度 

12. 内 容 效 度 主要 用 于 考查 ( ) 
A. 成 就 测验 B. 人格 测验 C. 能 力 倾向 测验 D. 职业 测验 

13. 影响 测量 的 效 度 的 误差 因素 有 ( ) 
A. 必然 误差 B. 随机 误差 C. 表面 误差 D. 系统 误差 

14. 下 列 哪些 选项 属于 效 度 的 验证 方法 ? € 2 
A. 表面 效 度 B. 内 容 效 度 C. 复 本 效 度 D. 效 标 效 度 

15. 某 公 司 人 力 资源 部 运用 某 一 能 力 倾向 测验 选拔 了 50 名 新 员工 。 半 年 之 后 ,发 现 其 

中 有 10 人 选择 不 理想 。 那 么 ,这 个 测验 的 预测 效 度 是 ¢ j 


A. 0.20 B. 0.25 iG, 0375 D. 0. 80 
二 、 简 答题 
1. 简 述 信 度 与 效 度 的 关系 。 


2. 试 比 较 内 容 效 度 、 效 标 效 度 和 结构 效 度 的 异同 。 


o 
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3. 简 述 测量 的 效 度 的 影响 因素 及 提高 方法 。 
三 、 分 析 题 

1. 有 人 对 高 考 的 有 效 性 产生 怀疑 ,您 的 想法 是 什么 ? 表 4-4 是 某 班 学 生 的 高 考 数学 考 
试 成 绩 和 和 学 后 第 一 学 期 期 末 高 等 数学 测验 成 绩 , 请 用 具体 的 数字 说 明 您 的 观点 。 


表 4-4 某 班 学生 的 高 考 数学 考试 成 绩 和 入 学 后 第 一 学 期 期 末 高 等 数学 测验 成 绩 


学 生 高 考 数 学 考试 成 绩 (X;) 人 学 后 第 一 学 期 期 末 高 等 数学 测验 成 绩 (Y;) 
1 89 70 
2 110 72 
3 120 79 
4 90 58 
5 87 70 
6 73 50 
7 130 87 
8 135 92 
9 110 70 
10 102 69 
11 95 67 
12 125 76 
13 107 70 
14 140 80 
15 138 84 
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上 两 章 介 绍 了 信和 度 和 效 度 ,这 “两 度 ” 主 要 是 对 整个 测验 的 质量 而 言 的 。 但 是 ,实际 测量 
中 我 们 也 要 对 具体 题目 的 质量 进行 分 析 , 我 们 称 之 为 项 目 分 析 或 题目 分 析 (item analysis). 
本 章 我 们 将 要 介绍 的 项 目 分 析 是 对 测验 中 每 一 道 试题 而 言 的 ,是 经 典 测验 理论 提高 项 目 质 
量 的 有 力 手段 和 方法 。 在 测验 编制 过 程 中 ,进行 项 目 分 析 的 目的 是 通过 分 析 项 目 质 量 来 改 
进项 目 不 足 ,进而 提高 整个 测验 的 信 度 和 效 度 。 对 项 目 质量 进行 评价 的 指标 有 很 多 ,目前 最 
常用 的 是 难度 和 区 分 度 。 在 本 章 中 ,题目 (item) ,又 称 为 项 目 或 试题 。 
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比如 , 某 公 司 想 对 来 应 聘 的 员工 进行 能 力 测 试 ,出 题 部 门 如 何 知道 某 个 项 目的 质量 好 或 
坏 呢 ? 又 如 何 控制 项 目的 难度 和 区 分 度 , 以 使 招聘 工作 顺利 进行 呢 ? 同样 ,我 国 每 年 的 中 
考 高 考研 究 生 人 学 等 考试 ,又 如 何 控制 项 目的 难度 和 区 分 度 呢 ? 对 于 这 些 问 题 ,一 方面 需 
要 对 项 目 进行 质 的 讨论 (如 对 内 容 效 度 进行 分 析 等 ); 另 一 方面 还 需要 对 项 目 进行 量 的 分 析 
(如 对 项 目 进行 难度 和 区 分 度 分 析 等 )。 

另外 ,对 于 一 些 大 规模 的 测验 通常 可 以 从 题库 中 抽取 试题 。 在 快速 有 效 地 合成 一 个 测 
验 时 ,题库 起 到 了 很 大 的 作用 。 比 如 ,国家 四 、 六 级 英语 考试 .美国 的 SAT 考试 ,甚至 一 些 心 
理 测试 等 ,都 需要 从 先前 建设 好 的 题库 中 抽取 合适 的 试题 。 那 么 ,又 如 何 形成 合适 的 题库 
呢 ? 这 也 是 要 以 项 目 分 析 为 基础 的 。 


一 、 项 目 难度 的 意义 与 计算 


(一 ) 难度 的 意义 

难度 (difficulty) 是 用 来 表示 测验 项 目 难 易 程度 的 指标 。 一 个 测验 项 目 ,如 果 大 部 分 被 
试 都 能 答对 ,那么 我 们 就 认为 该 项 目的 难度 较 小 。 反 之 ,如 果 大 部 分 被 试 都 不 能 答对 ,那么 
我 们 就 认为 该 项 目的 难度 较 大 。 

(二 ) 难度 的 计算 

1. 二 值 记 分 项 目的 难度 

(1) 通过 率 。 如 果 不 考虑 被 试 作答 时 猜测 成 功 的 概率 ,那么 二 值 记 分 ( 即 只 有 答对 和 答 
错 两 种 情况 , 记 为 1 或 0 分) 测验 项 目的 难度 通常 以 通过 率 来 表示 , 即 以 答对 或 通过 该 项 目 
的 人 数 的 百分比 来 表示 ,其 难度 计算 公式 为 


P= -D 


R 
N 

在 公式 (5 一 1) 中 ,P 表示 项 目的 通过 率 ;R 表示 答对 或 通过 该 项 目的 人 数 ; N 表示 总 
人 数 。 
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例 5-1 设 有 80 名 被 试 参加 某 个 测验 ,其 中 答对 某 项 目的 人 数 为 32 人 , 则 该 项 目的 难 


度 为 多 少 ? 
解 : 根据 题 意 ,将 有 关 数 据 代入 公式 (5 - 1) ,得 
Roon 
P-o 0 


请 注意 : 以 通过 率 表示 项 目的 难度 时 ,通过 人 数 越 多 ,P 值 越 大 ,其 难度 越 小 ;通过 人 数 

越 少 ,P 值 越 小 ,其 难度 越 大 。 所 以 ,有 人 把 P 值 也 称 为 容易 度 。 其 实 , 难 度 的 本 质 是 “ 易 
BE”. 事实 上 ,这 里 所 计算 的 难度 与 我 们 通常 所 理解 的 试题 实际 困难 程度 正好 相反 。 

(2) 极端 分 组 法 。 当 被 试 人 数 较 多 时 , 则 可 以 先 将 被 试 依照 测验 总 分 从 高 到 低 排 列 , 分 

成 三 组 ,总 分 最 高 的 27% 被 试 为 高 分 组 (High) ,总 分 最 低 的 27% 被 试 为 低 分 组 (Low) ,其 余 

的 为 中 间 组 。 当 然 ,也 可 以 取 20%、25%、30% 等 比例 ,但 一 般 认为 27% 最 精确 。 分 别 计算 

高 分 组 和 低 分 组 的 通过 率 ,计算 二 值 记分 项 目的 难度 的 公式 为 
Pa 十 已 


2 


(5 - 2a) 


或 p=} (Ret) (5 - 2b) 

在 公式 (5 -2a) 中 ,Pu 表示 高 分 组 项 目的 通过 率 ;Pi 表示 低 分 组 项 目的 通过 率 。 在 公式 
(5 一 2b) 中 ,Rn 表示 高 分 组 答对 或 通过 该 项 目的 人 数 ;Ri 表 示 低 分 组 答对 或 通过 该 项 目的 人 
数 ; Nn 表示 高 分 组 的 总 人 数 ;NN 表示 低 分 组 的 总 人 数 。 

例 5-2 设 有 370 名 被 试 ,选取 其 中 成 绩 最 高 的 27%(100 人 ) 为 高 分 组 ,成 绩 最 低 的 
27% (100 人 ) 为 低 分 组 。 对 于 某 项 目 , 若 高 分 组 有 60 人 答对 , 低 分 组 有 30 人 答对 , 则 该 项 目 
的 难度 为 多 少 ? 

解 : 根据 题 意 ,将 有 关 数 据 代 入 公式 (5 - 2b) ,得 


1 (Rs ,Ri 1( $4 $0) 1 _ 
P > (Rt) 2 (1007 Too | z% 60+0. 30) =0. 45 


2. 非 二 值 记分 项 目的 难度 

CLD) 用 被 试 得 分 平均 数 估计 。 对 于 简 答 题 、 论 述 题 等 ,这 些 非 二 值 记分 项 目 ,每 个 项 目 
不 只 有 答对 和 答 错 两 种 可 能 的 结果 ,而 是 有 从 零 分 至 满分 之 间 的 多 种 可 能 结果 。 对 于 这 类 
项 目 , 其 难度 计算 公式 为 


X 
X max 
在 公式 (5- 3) 中 ,X 表示 被 试 在 某 一 项 目 上 的 平均 得 分 ;Xw。 表 示 该 项 目的 满分 值 。 
例 5-3 某 项 目的 满分 值 为 15 分 , 若 被 试 在 该 项 目 上 的 平均 得 分 为 9.6 分 , 则 该 项 目 


P= 


(5\-3) 


的 难度 为 多 少 ? 
解 : 根据 题 意 ,将 有 关 数 据 代入 公式 (5 - 3) ,得 
A -所 区 
ex ir oe 64 


(2) 极端 分 组 法 。 对 于 非 二 值 记分 项 目 , 也 可 以 使 用 类 似 于 公式 (5 -2a) 和 公式 (5 -2b) 
来 计算 其 难度 。 对 于 公式 (5 - 2a) ,Pa 表示 高 分 组 项 目的 平均 得 分 与 满分 值 的 比值 , 即 


Pame, p, 表示 低 分 组 项 目的 平均 得 分 与 满分 值 的 比值 , 即 P, 一 区 二。 而 对 于 公 
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(5 一 2b) ,应 该 变 为 


ne A. Xu, Xt 
— T ie ka 


如 此 ,利用 极端 分 组 法 ,也 可 以 计算 非 二 值 记分 项 目的 难度 。 

例 5-4 设 有 370 名 被 试 ,选取 其 中 成 绩 最 高 的 27% (100 人 ) 为 高 分 组 ,成 绩 最 低 的 
27%(100 人 ) 为 低 分 组 。 对 于 某 项 目 , 其 满分 值 为 10 分 , 若 高 分 组 在 该 项 目的 平均 得 分 为 9 
分 , 低 分 组 在 该 项 目的 平均 得 分 为 5 分 , 则 该 项 目的 难度 为 多 少 ? 

解 : 根据 题 意 ,分 别 计算 高 分 组 的 Pa 和 低 分 组 的 Pi ,将 有 关 数 据 代 入 公式 (5 -4) ,得 
Xn _ 9 XL _ 5 


P 


(5-4) 


Py Xa. 10 0. 90, P. Xaa 10 0.50 
_PatP. 1/Xs ， X.)_1 Aa 
P 2 2 (f+) 2 (0. 90 十 0. 50) 5 0.70 


二 、 项 目 难 度 的 等 距 量 纲 


(一 ) 使 用 项 目 难度 等 距 量 纲 的 理由 

首先 ,以 项 目的 通过 率 来 表示 项 目的 难度 ,虽然 计算 方便 ,易于 理解 ,但 是 这 类 难度 指标 
属于 顺序 量 纲 的 变量 ,不 具有 相等 的 单位 ,仅仅 是 项 目的 相对 难度 。 也 就 是 说 , 它 只 能 表示 
事物 之 间 大 小 位 次 的 关系 ,不 能 表示 事物 之 间 的 差异 。 

例如 ,三 个 项 目的 难度 分 别 为 0.50、0.60、0.70, 我 们 只 能 说 第 一 题 最 难 , 第 三 题 最 
简单 。 虽 然 三 题 难度 分 别 相差 10% ,但 我 们 并 不 能 说 第 一 题 与 第 二 题 的 难度 之 差 等 于 
第 二 题 与 第 三 题 的 难度 之 差 。 如 果 我 们 仅仅 是 为 了 比较 项 目 难度 的 大 小 ,这 是 不 存在 
什么 问题 的 。 但 是 ,如 果 需 要 在 难度 与 其 他 变量 之 间 建 立 某 种 函数 关系 ( 即 数量 关系 ) 
时 ,那么 这 种 难度 表示 法 就 对 我 们 进一步 作 难 度 分 析 带 来 了 困难 ,必须 设法 将 它 表 达 在 
等 距 量 纲 之 上 。 

其 次 ,难度 是 反 序 而 行 的 ,通过 难度 公式 计算 出 来 的 已 值 越 大 ,表示 项 目 越 容 易 , 这 使 我 
们 经 常 对 难度 的 理解 产生 混淆 。 

(=) 项 目 难 度 等 距 量 纲 的 转换 方法 

当 样 本 容量 很 大 时 ,测验 分 数 接近 正 态 分 布 。 我 们 可 以 把 试题 的 难度 P 作为 正 态 曲线 
下 的 面积 ,转换 成 具有 相等 单位 的 等 距 量 纲 分 数 , 即 = 分 数 。 

从 图 5-1 可 知 , 在 正 态 分 布 中 平均 数 之 上 或 之 下 一 个 标准 差 的 面积 约 占 总 面积 的 
34%。 因 此 ,如 果 一 个 测验 中 某 项 目 A 的 通过 率 为 84% (P=0. 84) ,那么 该 项 目的 难度 
就 在 平均 数 以 下 一 个 标准 差 的 位 置 , 即 难度 为 一 1; 如果 一 个 测验 中 某 项 目 B 的 通过 率 为 
16% (P=0. 16) ,那么 该 项 目的 难度 就 在 平均 数 以 上 一 个 标准 差 的 位 置 , 即 难度 为 十 1; 同 
理 , 如 果 一 个 测验 中 某 项 目 C 的 通过 率 为 50%(CP=0.50) ,那么 该 项 目的 难度 为 0。 应 用 
此 方法 ,任何 一 个 与 通过 率 相 当 的 难度 值 都 可 以 通过 查 正 态 分 布 表 得 到 。 显 然 , 较 难 的 项 
目 难 度 为 正 值 , 较 易 的 项 目 难度 为 负 值 。< 值 越 大 ,难度 越 高 。 因 此 ,用 标准 分 数 作为 项 
目 难 度 的 指标 ,为 进一步 作 难 度 分 析 带 来 了 极 大 的 方便 。 

根据 以 上 例子 ,P=0. 50,z 一 0;P 一 0. 60, 0. 25; 了 一 0. 70,z 0. 52 ,前 面 两 者 相 
差 0.25 ,后 面 两 者 相差 0. 27 ,差距 显然 是 不 相等 的 。 
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图 5-1 正 态 分 布下 项 目 通 过 率 与 项 目 难度 的 关系 


另外 ,所 转换 的 > 分 数 带 有 小 数 点 和 负 值 。 为 了 避免 负 号 的 出 现 ,通常 的 做 法 是 把 得 
到 的 < 分 数 进行 线性 转换 。 其 中 ,较为 常见 的 是 美国 教育 测验 服务 中 心 (Educational 
Testing Service, 简 称 ETS) 采 用 的 正 态 化 等 距 难度 指数 A, 其 与 > 分 数 的 线性 转换 关系 
如 下 : 

A 一 13 十 4z (5-5) 

在 公式 (5 - 5) 中 ,A 表示 正 态 化 等 距 难 度 指 数 ;13 表示 平均 数 ;4 表示 标准 差 ;x 表示 由 
P 值 转换 得 到 的 以 标准 差 为 单位 的 标准 分 数 。 

例如 ,在 上 面 所 举 的 例子 中 ,其 A 值 分 别 为 : 

THA A: 通过 率 P 一 0.84,= 1,A=13+4X(—1)=9, 

项 目 B: 通过 率 P=o0.16.2<=+1,A=13+4x1=17. 

项 目 C: 通过 率 P=0. 50,z 一 0,A 一 13 十 4X0 一 13。 

根据 正 态 分 布 表 可 知 , 标 准 正 态 分 布 的 全 距 一 般 包括 6 个 标准 差 的 距离 , 即 从 一 3 至 十 
3。 由 此 可 知 , 正 态 化 等 距 难 度 指数 A 是 以 25 为 上 限 ,1 为 下 限 的 等 距 量 纲 分 数 。A 值 越 
大 ,难度 越 高 ;A 值 越 小 ,难度 越 低 。 


三 、 项 目 难度 对 测验 的 影响 


通过 以 上 学 习 , 我 们 对 项 目 难度 的 意义 和 方法 有 了 比较 清楚 的 认识 。 那 么 ,项 目的 难度 
对 测验 究竟 会 产生 什么 样 的 影响 呢 ? 

(一 ) 项 目 难度 影响 测验 分 数 的 分 布 形态 

被 全 部 考生 都 答对 的 试题 ,其 难度 为 1. 00, 表 示 所 有 考生 全 部 都 得 满分 ;被 全 部 考生 都 
答 错 的 试题 ,其 难度 为 0, 表 示 所 有 考生 全 部 都 得 零 分 。 如 果 出 现 这 两 种 极端 情况 ,考生 所 有 
的 分 数 全 部 都 集中 在 两 个 分 数值 上 (满分 或 0 分 ) ,那么 就 不 能 有 效 地 将 学 生 的 分 数 拉 开 距 
离 , 学 生 之 间 实 际 存在 的 差异 就 可 能 会 被 掩盖 。 

难度 值 越 接 近 0, 项 目的 难度 就 越 大 ,正确 回答 该 项 目的 人 数 就 越 少 。 如 果 组 成 测验 的 
大 多 数 项 目的 难度 值 越 接近 0, 那 么 测验 分 数 就 越 集中 在 曲线 左 侧 的 低 分 端 ,其 分 数 分 布 就 
越 呈 现 正 偏 态 ,这 种 现象 说 明 该 测验 过 于 困难 ,如 图 5-2 所 示 。 反 之 ,难度 值 越 接近 1. 00， 
项 目的 难度 就 越 小 ,正确 回答 该 项 目的 人 数 就 越 多 。 如 果 组 成 测验 的 大 多 数 项 目的 难度 值 
越 接 近 1. 00 ,那么 测验 分 数 就 越 集中 在 曲线 右 侧 的 高 分 端 , 其 分 数 分 布 就 越 呈现 负 偏 态 ,这 
种 现象 说 明 该 测验 过 于 容易 ,如 图 5-3 所 示 。 
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图 5-2 测验 分 数 呈 正 偏 态 图 5-3 测验 分 数 呈 负 偏 态 


项 目 难度 过 大 或 过 小 ,都 会 造成 测验 分 数 偏离 正 态 分 布 , 从 而 使 测验 分 数 的 离散 程度 变 
小 。 当 然 ,在 实际 测验 中 ,也 不 是 所 有 测验 分 数 都 要 求 呈 正 态 分 布 , 对 于 有 些 测验 ,出 现 偏 态 
分 布 也 是 允许 的 。 例 如 ,奥数 竞赛 允许 测验 分 数 是 正 偏 态 的 , 即 大 多 数 考生 的 分 数 较 低 , 分 
数 较 高 的 考生 是 相当 少 的 一 部 分 人 (这 部 分 人 可 能 要 拿 奖 ) ;而 高 中 数学 会 考 则 允许 测验 分 
数 是 负 偏 态 的 , 即 大 多 数 考生 分 数 都 较 高 ,分数 较 低 或 没有 通过 考试 的 考生 是 相当 少 的 一 部 
分 人 (这 部 分 人 的 成 绩 可 能 实在 太 差 了 !)。 

(=) 项 目 难度 影响 整个 测验 测量 的 信 度 

由 过 难 或 过 易 项 目 所 组 成 的 测验 ,会 使 测验 分 数 相对 地 集中 在 低 分 数 端 或 高 分 数 端 , 从 


而 使 分 数 的 全 距 缩小 。 根 据 信 度 公式 ra 一 1 一 芋 可 知 ,着 测 验 分 数 分 布 范 围 较 广 ,整个 测 


验 分 数 方差 较 大 , 则 整个 测验 测量 的 信 度 就 较 高 。 反 之 , 若 测验 分 数 分 布 范围 较 罕 , 整 个 测 
验 分 数 方差 较 小 , 则 整个 测验 测量 的 信 度 就 较 低 。 

1965 年 ,测量 学 家 艾 伯 尔 (R.L. Ebel) 曾 用 三 套 各 包含 有 16 个 项 目的 测验 进行 研究 ,这 
三 套 测验 的 项 目 难度 分 配 不 同 ,各 套 测验 的 分 数 分 布 如 图 5-4 所 示 。 

根据 图 5-4, 当 16 个 项 目的 难度 都 集中 在 0. 50 左右 时 ,分 数 的 分 布 范围 较 广 ,方差 和 
信 度 系数 都 较 大 (Si 一 2. 67? ,x =0. 485) 5 4 16 个 项 目的 难度 服从 0. 20 一 0. 80 均匀 分 布 时 ， 
分 数 的 分 布 范围 适中 ,方差 和 信 度 系数 居中 (S 一 2. 29° ,x; =0. 416); 当 难度 集中 在 0. 20 和 
0. 80 两 端 时 , 即 当 项 目的 难度 不 是 太 难 就 是 太 易 时 ,分 数 的 分 布 范围 较 罕 ,方差 和 信 度 系数 
都 较 小 (Si =1. 60° ,rs 二 0.013)。 可 见 , 仅 当 项 目的 难度 集中 在 0. 50 左右 时 ,测验 测量 的 信 
度 最 佳 ;而 当 项 目的 难度 集中 在 两 端 时 ,测验 测量 的 信和 度 最 差 。 

此 外 ,项 目 难度 对 测验 的 鉴别 能 力也 有 一 定 的 影响 ,这 一 点 将 在 下 一 节 的 项 目 区 分 度 的 
相关 内 容 中 讨论 。 


第 二 节 项 目 区 分 度 


一 、 项 目 区 分 度 的 意义 


区 分 度 (discrimination) ,又 称 鉴别 力 , 是 指 项 目 对 被 试 实际 能 力 或 心理 特质 水 平 的 区 分 
能 力 或 鉴别 能 力 , 也 即 项 目 得 分 高 低 与 被 试 实际 能 力 或 特质 水 平 高 低 的 一 致 性 程度 。 具 有 
良好 区 分 度 的 项 目 , 能 将 不 同 水 平 被 试 区 分 开 来 ,也 就 是 说 ,在 该 项 目 上 水 平 高 的 被 试 得 高 
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图 5-4 项 目 难 度 与 测验 分 数 分 布 的 关系 


分 ,水 平 低 的 被 试 得 低 分 。 反 之 ,区 分 度 低 的 项 目 则 对 不 同 水 平 被 试 不 能 很 好 地 区 分 开 来 ， 
水 平 高 与 水 平 低 的 被 试 ,所 得 分 数 差不多 ,甚至 相反 。 所 以 ,测量 专家 们 把 项 目的 区 分 度 称 
为 项 目 是 否 具有 效 度 的 “指示 器 ”, 并 作为 评价 项 目 质量 和 筛选 项 目的 主要 指标 与 依据 。 

理解 区 分 度 可 以 从 项 目 效 度 (item validity) 和 内 部 一 致 性 (internal consistency) 两 方面 
着 手 。 采 用 项 目 效 度 和 内 部 一 致 性 来 表示 项 目 区 分 度 , 两 者 之 间 到 底 有 什么 关系 呢 ? 项 目 
效 度 分 析 主 要 以 效 标 为 依据 ,考察 被 试 在 每 个 项 目 上 的 反应 与 其 在 效 标 上 的 表现 的 相关 。 
评价 一 个 项 目 在 测量 个 体 的 能 力 和 人 格 特征 方面 的 效 度 时 ,必须 选择 衡量 这 些 特征 的 外 在 
标准 ,这 个 标准 就 称 为 效 标 。 例 如 , 若 测验 是 预测 被 试 在 工作 或 学 习 中 的 表现 , 则 合适 的 效 
标 可 以 是 工作 表现 指标 (如 上 级 和 同事 的 评价 等 ) 或 学 习 成 就 指标 (如 考试 分 数 等 )。 但 是 ， 
在 进行 项 目 效 度 分 析 时 ,有 时 使 用 效 标 是 难以 做 到 的 ,如 成 就 测验 。 因 此 ,在 具体 估计 项 目 
区 分 度 时 ,我 们 常常 用 其 他 指标 蔡 代 实际 水 平 ( 效 标 ) ,其 中 最 常用 的 是 测验 总 分 。 用 测验 总 
分 替代 效 标 , 用 以 考察 项 目 分 数 与 测验 总 分 的 一 致 性 ,这 种 分 析 的 结果 就 是 内 部 一 致 性 ,而 
不 是 反映 项 目 对 效 标的 有 效 性 , 即 项 目 效 度 。 内 部 一 致 性 的 计算 方法 与 项 目 效 度 相同 ,只 不 
过 是 用 测验 总 分 蔡 代 了 外 在 效 标 成 绩 而 已 。 

总 之 ,项 目 效 度 代表 项 目 与 外 在 效 标的 关系 ,而 内 部 一 致 性 则 更 多 地 代表 项 目 与 测验 总 
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分 (内 在 效 标 ) 的 关系 。 注 意 , 具 有 较 高 内 部 一 致 性 的 项 目 , 并 不 一 定 与 外 在 效 标 有 很 高 的 相 
关 。 同 样 ,具有 和 较 高 项 目 效 度 的 项 目 ,与 测验 总 分 的 相关 也 不 一 定 很 高 。 例 如 ,有 一 个 由 70 
道 算术 题 和 30 道 词汇 题 组 成 的 学 术 能 力 倾向 测验 ,由 于 算术 题 在 总 分 中 所 占 比重 较 大 , 因 
此 结果 显然 是 算术 题 与 测验 总 分 的 相关 比较 高 。 如 果 以 内 部 一 致 性 作为 项 目 区 分 度 指标 ， 
从 测验 中 选择 20 道内 部 一 致 性 较 高 的 项 目 , 那 么 有 可 能 全 是 算术 题 。 然 而 ,如 果 以 学 习 成 
绩 或 教师 评定 作为 外 在 效 标 , 那 么 有 可 能 词汇 题 的 预测 力 要 大 于 算术 题 。 因 此 ,项 目 效 度 与 
内 部 一 致 性 有 时 是 相 矛 盾 的 。 

那么 ,究竟 选择 何 种 鉴别 力 指标 作为 选择 项 目的 依据 呢 ? 一 般 地 ,需要 根据 测验 的 目的 
来 确定 。 若 测验 是 预测 性 测验 , 则 应 该 多 采用 项 目 效 度 较 高 的 项 目 ,这 样 ,各 个 项 目 对 预测 
外 在 效 标 都 有 相当 的 贡献 : 若 测 验 要 求 同 质 , 即 希 望 各 个 试题 都 测量 同一 特质 , 则 应 该 选择 
内 部 一 致 性 较 高 的 项 目 。 若 测验 相当 单纯 (如 仅 测 词汇 量 ), 且 也 没有 适当 的 外 在 效 标 , 则 宜 
选择 内 部 一 致 性 较 高 的 项 目 。 当 然 ,如 果 所 测量 的 心理 变量 很 复杂 ,不 是 单纯 的 一 种 特质 
时 ,那么 我 们 通常 可 以 结合 这 两 种 鉴别 力 指标 一 起 使 用 。 例 如 , 当 测 验 所 预测 的 效 标 具有 多 
重 特 质 时 , 则 宜 选 取 项 目 效 度 较 高 而 内 部 一 致 性 较 低 的 项 目 。 


二 、 项 目 区 分 度 的 计算 


项 目 区 分 度 的 计算 方法 很 多 ,各 种 方法 在 含义 上 略 有 差别 。 在 使 用 时 ,我们 可 以 根据 测 
验 目的 项 目 记分 和 测验 总 分 性 质 的 不 同 ,而 选择 不 同 的 计算 方法 。 项 目 区 分 度 的 计算 方法 
主要 包括 极端 分 组 法 和 相关 法 。 

(一 ) 极端 分 组 法 

在 采用 极端 分 组 法 计算 区 分 度 时 ,因为 项 目 记 分 不 同 ,所 以 区 分 度 计 算 方 法 也 不 同 。 

1. 二 值 记 分 项 目的 区 分 度 

第 一 步 , 按 测验 总 分 由 高 到 低 依次 排列 。 

第 二 步 ,确定 高 分 组 与 低 分 组 (从 分 数 分 布 的 两 端 分 别 选择 27% 的 被 试 ) 。 

第 三 步 ,分 别 计算 高 分 组 与 低 分 组 答对 或 通过 该 项 目的 人 数 的 比例 。 

第 四 步 , 按 下 列 公式 计算 项 目 区 分 度 : 


D=-Pi-Pi- Ne N (5-6) 


在 公式 (5- 6) 中 ,D 表示 区 分 度 指数 或 鉴别 力 指数 ; Pa 表示 高 分 组 项 目的 通过 率 ;PL 
表示 低 分 组 项 目的 通过 率 ;Rs 表示 高 分 组 答对 或 通过 该 项 目的 人 数 ;Ri 表示 低 分 组 答对 或 
通过 该 项 目的 人 数 ;Na 表示 高 分 组 的 总 人 数 ; Ni 表示 低 分 组 的 总 人 数 。 

根据 公式 (5 — 6) ,如 果 高 分 组 被 试 全 部 通过 , 低 分 组 被 试 全 部 不 通过 ,那么 D==1.00; 相 
反 , 如 果 低 分 组 的 被 试 全 部 通过 ,高 分 组 的 被 试 全 部 不 通过 ,那么 D== 一 1.00; 如 果 两 组 被 试 
的 通过 率 相等 ,那么 也 =0。 

例 5-5 设 有 370 名 被 试 ,选取 其 中 成 绩 最 高 的 27%(100 人 ) 为 高 分 组 ,成 绩 最 低 的 
27% (100 人 ) 为 低 分 组 。 对 于 某 项 目 , 若 高 分 组 有 60 人 答对 , 低 分 组 有 30 人 答对 , 则 该 项 目 
的 区 分 度 为 多 少 ? 

解 : 根据 题 意 ,将 有 关 数 据 代 入 公式 (5 -6) ,得 
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2, 非 二 值 记分 项 目的 区 分 度 

第 一 步 , 按 测 验 总 分 由 高 到 低 依 次 排列 。 

第 二 步 ,确定 高 分 组 与 低 分 组 (从 分 数 分 布 的 两 端 分 别 选择 27% 的 被 试 ) 。 
第 三 步 , 分 别 计 算 高 分 组 与 低 分 组 项 目的 平均 得 分 。 

第 四 步 , 按 下 列 公式 计算 项 目 区 分 度 : 


D=Pi—PL= 


Ka ke 
Mear: Keir 

在 公式 (5-7) 中 ,D 表示 区 分 度 指数 或 鉴别 力 指数 ; Pa 表示 高 分 组 项 目的 平均 得 分 与 
满分 值 的 比值 ;P, 表示 低 分 组 项 目的 平均 得 分 与 满分 值 的 比值 ;Xu 表示 高 分 组 在 该 项 目 上 
得 分 的 平均 数 ;XL 表示 低 分 组 在 该 项 目 上 得 分 的 平均 数 ;X。 表 示 该 项 目的 满分 值 。 

例 5-6 设 有 370 名 被 试 ,选取 其 中 成 绩 最 高 的 27%(100 人 ) 为 高 分 组 ,成 绩 最 低 的 
27%(100 人 ) 为 低 分 组 。 对 于 某 项 目 , 其 满分 值 为 10 分 , 若 高 分 组 在 该 项 目的 平均 得 分 为 9 
分 , 低 分 组 在 该 项 目的 平均 得 分 为 5 分 , 则 该 项 目的 区 分 度 为 多 少 ? 

解 : 根据 题 意 ,将 有 关 数 据 代 入 公式 (5 -7) ,得 
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根据 计算 ,可知 该 项 目 区 分 度 为 0. 40, 这 是 一 道具 有 较 高 区 分 度 的 项 目 。 

区 分 度 指数 D 的 取 值 范围 介 于 一 1.00 至 十 1.00 之 间 。 通 常 , 若 区 分 度 指数 DD 为 正 值 ， 
则 称 作 积极 区 分 ; 若 区 分 度 指 数 D 为 负 值 , 则 称 作 消 极 区 分 : 若 区 分 度 指数 D 为 0, 则 称 作 无 
区 分 。 具 有 积极 区 分 的 项 目 , 其 DD 值 越 大 ,区 分 的 效果 就 越 好 。 

(二 ) 相关 法 

在 大 规模 的 或 标准 化 的 测验 中 ,多 采用 相关 法 , 即 以 项 目 分 数 与 效 标 分 数 或 测验 总 分 的 
相关 作为 项 目 区 分 度 的 指标 ,其 取 值 范围 介 于 一 1. 00 至 十 1. 00 之 间 。 所 求 得 的 相关 越 高 ， 
项 目 区 分 度 也 就 越 高 。 根 据 项 目 记 分 和 测验 总 分 性 质 的 不 同 ,用 相关 法 计算 项 目 区 分 度 , 主 
要 包括 以 下 几 种 相关 。 

1. 积 差 相 关 

对 于 非 二 值 记 分 项 目 , 因 其 得 分 具有 连续 性 ,在 被 试 团体 较 大 时 ,通常 可 以 认为 项 目 分 
数 服从 正 态 分布 。 当 效 标 分 数 或 测验 总 分 为 正 态 连续 变量 时 ,项 目 区 分 度 可 用 项 目 分 数 与 
效 标 分数 或 测验 总 分 的 皮尔 逊 (Pearson) 积 差 相关 系数 来 表示 ,其 具体 的 计算 公式 在 前 面 已 
经 介绍 过 了 ,可 参考 公式 (3 - 8a) 或 公式 (3 一 8b) ,这 里 就 不 再 著述 了 。 

2. 点 二 列 相关 

当 效 标 分 数 或 测验 总 分 为 正 态 连续 变量 ,而 项 目 分 数 为 二 分 变量 (对 、 错 或 通过 、 未 通 
过 ) 时 ,可 采用 点 二 列 相关 系数 来 计算 项 目 区 分 度 , 其 计算 公式 为 


rp 2 VDI (5-8) 
在 公式 (5-8) 中 ,rw 表示 点 二 列 相关 系数 ;X, 表 示 答 对 或 通过 该 项 目的 被 试 的 效 标 分 
数 平均 分 或 测验 总 分 平均 分 ;X, 表 示 答 错 或 未 通过 该 项 目的 被 试 的 效 标 分 数 平均 分 或 测验 


总 分 平均 分 ;p 表示 答对 或 通过 该 项 目的 被 试 的 人 数 百分比 ;9 表示 答 错 或 未 通过 该 项 目的 
被 试 的 人 数 百 分 比 ;S, 表示 每 名 被 试 所 得 效 标 分 数 或 测验 总 分 的 标准 差 。 
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例 5-7 表 5-1 中 所 列 的 是 15 名 被 试 测验 总 分 和 其 中 一 道 选 择 题 及 一 道 论述 题 的 分 
数 , 试 计算 该 道 选 择 题 的 区 分 度 。 


表 5-1 I 名 被 试 测验 总 分 和 其 中 一 道 选择 题 及 一 道 论述 题 的 分 数 


被 试 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 


选择 题 1 1 0 0 1 1 1 0 1 0 0 1 0 0 1 
论述 题 48 56 23 13 30 45 38 35 34 20 22 29 36 28 33 
总 分 87 95 65 32 81 80 73 52 65 46 43 86 54 64 90 
解 : 由 表 5-1 可 以 求 出 : 
X, 一 (87 十 95 十 81 十 80 十 73 十 65 十 86 十 90)/8 = 82.13 
X, = (65 十 32 十 52 十 46 十 43 十 54 十 64)/7 = 50. 86 
p = 8/15 = 0.53 
q= 7/15 = 0.47 


eG 2 2 
s b> [2x] 73 535 (228) Pree 


n n 15 
S, = 18.48 
将 上 述 数 据 代 入 公式 (5-8) ,得 
Xx 82. 13—50. 86 _ 
pate Mpg igis ¥0-53X0. 47 =0. 84 


用 点 二 列 相关 计算 出 的 相关 系数 需 进行 显著 性 检验 ,才能 确定 其 意义 。 要 检验 ry 是 否 
达到 了 显著 水 平 , 常 用 的 检验 方法 有 两 种 : 一 是 采用 对 积 差 相关 系数 进行 检验 的 方法 进行 
检验 ,可 以 查阅 和 使 用 相关 统计 学 教材 有 关 积 差 相关 系数 显著 性 检验 用 表 ; 二 是 采用 对 点 二 
列 相关 公式 中 X, 和 X, 的 差异 作 t 检验 的 方法 进行 检验 , 若 差异 显著 , 则 ry 显著 ; 若 差异 不 显 
著 , 则 ry 不 显著 。 

对 于 例 5-7, 可 以 使 用 第 一 种 方法 ,n= 二 15,r =0. 84, 从 相关 统计 学 教材 有 关 积 差 相 关 
系数 显著 性 检验 用 表 中 找到 df=15—2=13.45 0. 05 水 平 交叉 处 的 值 是 0.514, 与 0.01 水 
平 交叉 处 的 值 是 0. 641。 本 例 中 ry =0. 84>0. 641, 表 明 相关 显著 ,说 明 该 道 选择 题 对 被 试 
的 测验 总 分 有 较 好 的 区 分 能 力 。 

3. 二 列 相关 

与 点 二 列 相关 相 比 ,二 列 相 关 适 用 于 两 列 变量 都 是 正 态 连续 变量 ,但 其 中 一 个 变量 
因为 某 种 原因 被 人 为 地 分 成 了 两 个 类 别 。 例 如 , 当 效 标 分 数 或 测验 总 分 是 正 态 连续 变 
量 , 而 项 目 分 数 被 人 为 地 分 成 对 、 错 或 通过 、 未 通过 两 类 时 ,可 以 采用 二 列 相关 系数 来 计 
算 项 目 区 分 度 , 其 计算 公式 为 
Se xe (5-9) 


在 公式 (5- 9) LX, X Sig 的 意义 同 公式 (5 - 8);m 表示 二 列 相关 系数 ;y 表示 正 
ARP prq 分 割 点 所 在 位 置 曲线 高 度 ( 纵 高 ) 。 
例 5-8 仍 使 用 前 述 例子 中 表 5 一 1 的 数据 ,以 论述 题 分 数 30 分 以 上 (包括 30 分 ) 为 合 


n= 


口 


Ps CHS 难度 与 区 分 度 Se 


格 ,30 分 以 下 为 不 合格 , 试 计算 该 道 论述 题 的 区 分 度 。 
解 : X,=(87+95+81+80+73+52+65+54+90)/9=75. 22 


X,=(65+32+46+43+86+64) /6=56 

p=9/15=0. 60 

q=1—0. 60=0. 40 

S,=18. 48 

查 p=0. 60 时 正 态 分 布 表 ,y 为 0.386 67, 代 入 公式 (5 - 9) ,得 


75. 22—56 、0. 60X0.40 
n= 73.48 <0, 38667 °° 


二 列 相 关系 数 ry 的 显著 性 检验 可 用 下 列 公式 进行 。 
To 
1 /eg 
ae 
在 公式 (5 一 10) 中 ,rs、y、p\q 的 意义 同 公式 (5 一 9);n 为 被 试 人 数 。 
对 于 例 5-8, 在 求 出 Z 值 后 , 查 正 态 分 布 表 ,就 可 以 进行 二 列 相关 系数 x 的 显著 性 检 
验 , 如 下 。 


Z= 


(5-10) 


Z ome 1/99 


1 x /0. 60X0. 40 
0. 386 67 15 


Z=1, 99> Zes =1, 96, 达 到 了 0. 05 的 显著 性 水 平 。 这 表明 ,这 道 论述 题 分 数 与 测验 总 
分 有 显著 性 相关 ,说 明 该 道 论述 题 对 被 试 的 测验 总 分 有 和 较 好 的 区 分 能 力 。 

4. 9 相关 

p 相关 系数 适用 于 两 列 变量 都 是 二 分 变量 ,或 者 一 列 是 二 分 变量 , 男 一 列 虽 是 正 态 连 续 
变量 ,但 可 以 人 为 地 变 为 二 分 变量 的 情况 ,其 计算 公式 为 

ad—bc 

(atb)(ctd)(ate) (btd) 

在 公式 (5 一 11) 中 ,rs H p 相关 系数 ;a、b、c、d 分 别 为 四 格 表 中 四 项 所 包含 的 人 数 。 

例 5-9 仍 使 用 前 述 例子 中 表 5 一 1 的 数据 ,并 规定 测验 总 分 以 60 分 以 上 (包括 60 分 ) 
为 合格 ,60 分 以 下 为 不 合格 。 假 设 以 测验 总 分 的 合格 状况 作为 效 标 , 选 择 题 *1”" 表 示 通 过 ， 
“0” 表 示 未 通过 , 试 计算 此 次 测验 中 该 道 选择 题 的 区 分 度 。 

解 : 根据 表 5 — 1 的 数据 ,将 合格 状况 列 成 2X2 的 四 格 表 , 如 表 5 — 2 所 示 。 


(5-11) 


To 


表 5-2 合格 状况 
合格 (测验 总 分 ) 不 合格 (测验 总 分 ) 合计 
通过 (选择 题 ) 8(a) 0b) 8(a+6) 
未 通过 (选择 题 ) 2c) 5(d) 7(c 十 四 
合计 10(a+c) 5(b+d) 15(N) 


将 四 格 表 中 的 数据 代入 公式 (5 -11) ,得 
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me. = 
ad 一 pc 8X5 一 0X2 40 


二 0. 76 
” Vlato) ctd) aF) Gd) V8X7X10X5 52.92 


9 相关 系数 re 的 显著 性 检验 可 用 下 列 公式 进行 。 
=n (5-12) 

通过 公式 (5- 12) 求 得 x 值 后 , 查 x* 表 , 看 x* 值 是 否 达到 了 显著 性 水 平 。 若 y 值 显 
著 , 则 rs 值 也 显著 。 

对 于 例 5-9,x* 二 15X0.76* 二 8. 664>73 osc) =3. 841, 表 明 所 求 得 的 7。 达到 了 0. 05 的 
显著 性 水 平 , 说 明 该 道 选择 题 对 被 试 的 测验 总 分 有 较 好 的 区 分 能 力 。 

以 上 介绍 了 4 种 相关 法 ,在 实际 项 目 分 析 中 , 究 竞 采用 哪 种 方法 ,应 该 根据 具体 情况 来 
决定 。 


三 、 项 目 难 度 与 区 分 度 的 关系 


项 目 难度 对 区 分 度 的 影响 ,可 以 通过 考察 不 同 难 度 的 项 目 提供 了 多 少 次 被 试 之 间 相互 
配对 机 会 ,来 加 以 说 明 。 在 测验 中 ,被 试 之 间 相互 配对 机 会 的 可 能 性 越 大 ,就 越 有 利于 准确 
地 鉴别 出 考生 在 知识 和 能 力 水 平 上 的 差异 。 比 如 ,有 100 人 参加 测验 ,难度 为 0. 50 的 某 题 ， 
意味 着 有 50 人 答对 ,有 50 人 答 错 ,那么 这 道 题 就 有 50X50 王 2 500 次 的 配对 机 会 。 如 果 某 
题 的 尸 值 为 0. 90, 意 味 着 有 90 人 答对 ,有 10 人 答 错 , 那 么 这 道 题 就 有 90 X 10=900 次 的 配 
对 机 会 。 同 理 ,如 果 某 题 被 全 部 应 试 学 生 答对 (P= 二 1. 00) Bt A HEC P= 0) ,那么 这 道 题 就 没有 
了 配对 机 会 (100X0=0 或 0X100=0)。 表 5-3 列 出 了 项 目 难 度 为 0 一 1 时 100 人 参加 测验 


的 配对 机 会 。 
表 5-3 项 目 难度 为 0~1 时 100 人 参加 测验 的 配对 机 会 

项 目 难度 成 功 次 数 失败 次 数 配对 机 会 
0.00 0 100 0X100 一 0 
0.10 10 90 10X 90=900 
0. 20 20 80 20 80=1 600 
0. 30 30 70 30X 70=2 100 
0. 40 40 60 40X 60=2 400 
0. 50 50 50 50X50 一 2 500 
0. 60 60 40 60X40 一 2 400 
0.70 70 30 70X 30=2 100 
0. 80 80 20 80 20=1 600 
0. 90 90 10 90X 10=900 
1.00 100 0 100X0=0 


从 表 5 一 3 可 知 ,项 目 难 度 为 0. 10 时 ,配对 机 会 为 10X90 二 900; 项 目 难 度 为 0.20 时 , 配 
对 机 会 为 20X80 王 1 600; 项 目 难度 为 0. 30 时 ,配对 机 会 为 30X70 一 2 100; 项 目 难 度 为 0. 40 
时 ,配对 机 会 为 40X60 一 2 400; 项 目 难度 为 0. 50 时 ,配对 机 会 为 50X50 二 2 500; 项 目 难度 
为 0. 60 时 ;配对 机 会 为 60X40 二 2 400; 项 目 难 度 为 0.70 时 ,配对 机 会 为 70X30 一 2 100; 项 
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目 难 度 为 0. 80 时 ,配对 机 会 为 80X20 二 1 600; 项 目 难度 为 0. 90 时 ,配对 机 会 为 900X10= 
900。 这 表明 , 仅 当 项 目 难度 为 0. 50 时 ,被 试 之 间 相互 配对 机 会 的 可 能 性 最 大 ,这 时 项 目的 
鉴别 力 或 区 分 力 最 强 。 由 此 可 见 , 当 项 目 难度 越 接近 0. 50 时 ,项 目的 鉴别 力 或 区 分 力 越 强 。 
同 理 , 对 于 一 份 测验 而 言 , 项 目的 平均 难度 越 接近 0. 50, 被 试 之 间 相 互 配对 机 会 的 可 能 性 就 
越 大 ,测验 的 鉴别 力 或 区 分 力 就 越 强 。 

项 目 难度 与 项 目 区 分 度 指数 D 的 最 大 值 的 关系 如 表 5 — 4 所 示 。 


#5-4 项 目 难 度 与 项 目 区 分 度 指数 D 的 最 大 值 的 关系 


项 目 难度 项 目 区 分 度 指数 D 的 最 大 值 
0.00 0.00 
0.10 0. 20 
0. 20 0. 40 
0. 30 0. 60 
0. 40 0. 80 
0.50 1,00 
0. 60 0. 80 
0.70 0. 60 
0. 80 0. 40 
0. 90 0. 20 
1.00 0.00 


从 表 5-4 可 以 分 析出 项 目 难度 与 区 分 度 的 关系 。 当 项 目 难度 为 1. 00 或 0. 00 时 ,高 分 
组 与 低 分 组 被 试 全 部 通过 或 无 人 通过 。 此 时 ,两 组 的 通过 率 没 有 差异 ,因此 D==0, 说 明 该 项 
目 没 有 区 分 作用 。 当 项 目 难度 为 0. 50 时 ,高 分 组 被 试 全 部 通过 ,而 低 分 组 被 试 无 人 通过 ,此 
时 区 分 度 达 到 最 大 值 1.00(D= Pa 一 已 =1.00 一 0.00=1.00)。 但 事实 上 ,一 份 测验 中 不 大 
可 能 每 一 个 项 目的 难度 都 达到 0. 50, 自 然 D 值 一 般 也 达 不 到 1. 00。 

从 表 5-4 也 可 以 看 出 ,项 目 难度 越 接近 0. 50, 项 目 区 分 度 指数 D 的 最 大 值 就 越 大 ,而 
项 目 难度 越 接近 1. 00 或 0. 00 时 ,项 目 区 分 度 指 数 D 的 最 大 值 就 越 小 。 

项 目 难度 的 分 布 一 般 以 正 态 分 布 为 好 ,这 样 不 仅 能 保证 多 数 项 目 具有 较 高 的 区 分 度 ,而 
且 也 能 保证 整个 测验 对 被 试 具有 较 高 的 区 分 度 。 一 般 而 言 , 较 难 的 项 目 对 高 水 平 的 被 坛 区 
分 度 高 ,中 等 难度 的 项 目 对 中 等 水 平 的 被 试 区 分 度 高 , 低 难度 的 项 目 对 低 水 平 的 被 试 区 分 度 
高 。 由 于 人 的 大 多 数 心理 特质 呈正 态 分 布 , 因 此 一 般 要 求 项 目的 难度 也 呈正 态 分 布 , 当 项 目 
平均 难度 为 0. 50 左 右 时 ,整个 测验 的 鉴别 力 或 区 分 力 往往 最 好 。 


四 、 测 验 项 目的 选择 


以 上 讨论 表明 ,项 目 难度 和 区 分 度 对 测验 质量 有 着 重要 的 影响 。 因 此 ,选择 具有 理想 的 
难度 和 区 分 度 的 项 目 对 提高 测验 质量 是 非常 重要 的 。 

(C) 根据 难度 选择 测验 项 目 

当 项 目 难 度 为 0.50 时 ,项 目的 区 分 能 力 能 达到 最 高 水 平 。 但 是 ,这 并 不 意味 着 组 成 该 
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测验 的 所 有 项 目的 难度 都 必须 是 0. 50。 测 验 一 般 要 求 有 较 高 的 同 质 性 , 同 质 性 高 时 项 目 得 
分 的 相关 也 高 ,答对 某 一 题 的 被 试 的 测验 分 数 就 容易 偏向 高 分 一 端 , 答 错 某 一 题 的 被 试 的 测 
验 分 数 则 容易 偏向 低 分 一 端 ,使 测验 分 数 出 现 双 峰 分 布 而 非 正 态 分 布 。 双 峰 分 布 是 偏离 正 
态 分 布 的 ,因此 测验 分 数 就 不 能 与 心理 特质 的 分 布 相 吻 合 ,测验 测量 的 效 度 就 不 理想 。 假 如 
所 有 项 目 都 完全 相关 ,并 且 都 是 0. 50 的 难度 水 平 ,在 一 个 项 目 上 通过 的 被 试 在 其 他 项 目 上 
也 会 通过 ,在 一 个 项 目 上 不 通过 的 被 试 在 其 他 项 目 也 会 不 通过 ,那么 一 半 被 试 将 通过 所 有 项 
目 , 另 一 半 被 试 将 完全 不 通过 所 有 项 目 。 在 这 种 情况 下 ,测验 只 有 满分 和 零 分 两 种 分 数 。 这 
样 ,从 整体 上 来 说 ,测验 能 提供 的 信息 大 大 减少 。 因 此 ,不 是 要 求 所 有 项 目的 难度 都 必须 是 
0.50, 而 是 要 求 项 目的 难度 介 于 0. 30 一 0. 70(0. 50 士 0. 20) 之 间 , 所 有 项 目的 平均 难度 在 0. 50 
左右 。 利 用 项 目 分 析 选 择 试题 时 ,应 使 项 目的 难度 分 布 广 一 些 , 梯 度 大 一 些 , 使 整个 测验 的 
难度 分 布 呈 正 态 分 布 , 且 平 均 难度 保持 在 0. 50 左右 。 

根据 难度 选择 项 目 时 还 需要 考虑 测验 的 目的 。 当 测验 是 为 了 选拔 少数 能 力 高 的 被 试 
时 ,项 目的 难度 就 应 该 大 一 些 。 这 样 ,测验 分 数 就 呈正 偏 态 ,高 分 一 端的 人 数 分 布 就 少 ,分 数 
的 离散 程度 也 比较 大 ,误差 在 测验 分 数 中 所 占 的 比重 就 小 ,分 数 在 分 割 点 处 的 区 分 能 力 就 
强 。 反 之 , 当 测验 是 为 了 筛选 少数 不 合格 的 被 试 时 ,测验 就 应 该 容易 一 点 ,从 而 使 测验 分 数 
EMME. 

另外 ,根据 难度 选择 项 目 时 也 需要 考虑 不 同 题 型 的 影响 。 例 如 ,对 于 选择 题 来 说 ,P 值 
一 般 应 大 于 猜测 概率 ,这 是 因为 选择 题 存在 猜测 因素 ,为 了 降低 被 试 的 猜测 动机 ,选择 题 应 
该 主动 降低 难度 ,从 而 “引诱 "被 试 * 上 钧 ”, 积 极 作答 。 否 则 ,被 试 就 容易 产生 猜测 动机 。 对 
于 四 选 一 的 选择 题 ,其 猜测 概率 为 0.25 ,那么 P 值 应 大 于 0. 25 ,其 难度 值 约 为 0. 63 最 合适 。 
同 理 ,判断 题 也 是 如 此 ,其 猜测 概率 为 0. 50, 其 难度 值 约 为 0.75 最 合适 。 

(二 ) 根据 区 分 度 选择 测验 项 目 

项 目 区 分 度 的 提高 会 显著 地 提高 测验 测量 的 信 度 和 效 度 。 因 此 ,应 尽量 选择 区 分 度 高 
的 项 目 ,但 在 实际 中 要 做 到 使 所 有 的 项 目 区 分 度 都 非常 高 ,往往 是 不 可 能 的 。 那 么 ,项 目 区 
分 度 多 高 才 是 合适 的 选择 标准 呢 ? 1965 年 ,测量 学 家 艾 伯 尔 (R. L. Ebel) 提 出 了 判断 项 目 区 
分 度 指 数 D 性 能 优 劣 的 评价 标准 ,如 表 5 一 5 所 示 。 


表 5-5 项 目 区 分 度 指数 D 性 能 优 劣 的 评价 标准 


项 目 区 分 度 指数 D 项 目 性 能 优 劣 评价 
0.40 以 上 非常 优良 
0. 30 一 0. 39 良好 ,如 能 修改 更 好 
0. 20 一 0. 29 尚 可 , 仍 需 修改 
0.19 以 下 劣 ,必须 淘汰 


从 表 5-5 可 知 ,项 目 区 分 度 指数 刀 在 0.30 以 上 就 比较 理想 了 。 但 是 ,对 一 些 区 分 度 指 
BLD 46.0. 20~0, 29 之 间 的 项 目 ,如 果 它 们 能 很 好 地 体现 测验 目的 ,那么 也 应 酌情 了 予以 保留 。 
上 述 艾 伯 和 尔 的 标准 是 针对 区 分 度 指数 而 言 的 .如 果 区 分 度 是 用 相关 系数 计算 的 ,那么 选择 项 
目的 最 低 标准 是 相关 系数 不 低 于 相应 的 临界 值 。 


口 


SEE ”难度 与 区 分 度 LE 


项 目 分 析 可 分 为 质 的 分 析 和 量 的 分 析 。 所 谓 质 的 分 析 , 是 指 对 项 目的 内 容 和 形式 进行 
的 分 析 , 如 对 项 目 所 要 测量 内 容 的 代表 性 、 项 目 与 所 要 测量 特质 的 关联 性 ,以 及 项 目 是 否 适 
合 测验 的 被 试 团体 等 进行 的 分 析 。 所 谓 量 的 分 析 , 是 指 采用 统计 的 方法 来 对 项 目的 质量 进 
行 的 分 析 , 主 要 包括 难度 的 分 析 和 区 分 度 的 分 析 , 以 此 作为 筛选 和 修改 项 目的 依据 。 我 们 在 
做 项 目 分 析 时 应 该 注意 把 质 的 分 析 和 量 的 分 析 相 互 结 合 起 来 。 学 习 本 章 有 助 于 理解 难度 和 
区 分 度 的 含义 ,掌握 难度 和 区 分 度 的 计算 ,了 解难 度 与 区 分 度 的 关系 等 。 本 章 的 重点 是 理解 
难度 和 区 分 度 的 意义 .计算 及 关系 ,难点 是 掌握 如 何 根据 难度 和 区 分 度 选择 合适 的 测验 项 
目 。 本 章 的 中 心 概 念 是 “通过 率 " 和 * 鉴 别 力 ”。 


一 、 选 择 题 (不 定 项 选择 题 , 至 少 有 一 个 选项 是 正确 的 ) 
1. 如 果 测 验 分 数 呈 正 偏 态 分 布 ,大 多 数 被 试 得 分 集中 在 低 分 端 ,那么 为 了 使 测验 分 数 
呈正 态 分 布 , 就 必须 增加 足够 数量 ( OMH, € 3 
A. 难度 较 易 B. 难度 较 难 
C. 难度 适中 D. 难度 一 般 
2. 确定 项 目 难度 时 ,不 属于 客观 方法 的 是 € 3 
A. 让 被 试 对 项 目 难度 发 表意 见 


B. 让 被 试 给 项 目的 难度 打分 
C. 项 目 难 不 难 ,被 试 说 了 算 
D. 检验 被 试 在 项 目 上 的 通过 率 

3. ( ”) 是 用 来 表示 测验 项 目 难 易 程 度 的 指标 。 E 3 
A. 区 分 度 B. 信 度 C. 难度 D. 效 度 

4. 若 项 目 得 分 与 实际 能 力 水 平 之 间 呈 较 高 的 正 相关 , 则 该 项 目 应 予 € 3 
A. 淘汰 B. 修改 C. 保留 D. DAE ART 


5. 利用 项 目 分 析 选 择 试题 时 ,应 使 项 目的 难度 分 布 广 一 些 , 梯 度 大 一 些 , 使 整个 测验 的 
难度 分 布 呈 正 态 分 布 , 且 平均 难度 保持 在 ( OEA. < 

A. 0. 40 B. 0.50 C. 0.60 D. 0.70 

6. 在 选择 项 目 时 ,最 好 使 项 目的 平均 难度 接近 0. 50, 并 在 正 负 ( “) 之 间 。 € 3 
A. 0.10 B. 0.20 C. 0.30 D. 0.40 

7. 对 于 选择 题 来 说 ,P 值 一 般 应 ( ) 猜 测 概率 。 ( ) 
A. 大 于 B: 水 未 C. SF D. 无 法 确定 

8. 区 分 度 指数 D 的 取 值 范围 介 于 ¢ 证 
A. 一 1.00 至 十 1.00 之 间 
B. 0 至 十 1.00 之 间 
C. 一 1.00 至 0 之 间 
D. 没有 限制 
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9. 在 具体 估计 项 目 区 分 度 时 ,我 们 常常 用 其 他 指标 蔡 代 实际 水 平 ( 效 标 ) ,其 中 最 常用 
的 是 ( ) 
A. 测验 总 分 B. 测验 平均 分 
C. PGK IQ D. WAR 
10. 项 目 难 度 的 分 布 一 般 以 ( ) 分 布 为 好 ,这 样 不 仅 能 保证 多 数 项 目 具 有 较 高 的 区 
分 度 ,而 且 也 能 保证 整个 测验 对 被 试 具 有 较 高 的 区 分 度 。 ( 


A. 偏 态 B. 负 偏 态 c. 峰 态 D. 正 态 

11. 难度 与 区 分 度 的 关系 ,一般 来 说 , 较 难 的 项 目 对 高 水 平 的 被 试 区 分 度 ( 。 “), 中 等 难度 

的 项 目 对 中 等 水 平 的 被 试 区 分 度 高 , 低 难 度 的 项 目 对 低 水 平 的 被 试 区 分 度 高 。 ¢« 3 

A. 中 等 B. 一 般 C. 高 D. 低 

12. 下 列 关 于 难度 和 区 分 度 的 说 法 ,正确 的 是 ( ) 
A. 难度 越 大 则 区 分 度 也 越 大 B. 难度 越 小 则 区 分 度 也 越 小 
C. 难度 大 而 区 分 度 未 必 大 D. 区 分 度 大 而 难度 未 必 大 

13. 某 测验 中 ,如 果 绝 大 部 分 题目 的 难度 值 P 较 大 .那么 被 试 的 分 数 E 3 
A. 集中 在 高 分 端 B. 平均 数 小 于 中 数 
C. 中 数 大 于 众 数 D. 分 布 呈 负 偏 态 

14. 下 列 项 目 区 分 度 指数 ,性 能 非常 优良 的 是 ¿é 3 
A. 0.15 B. 0.25 C. 0.35 D. 0.45 


15, 某 项 测验 ,被 试 共 18 人 ,高 分 组 和 低 分 组 若 各 取 总 人 数 的 27% , 若 在 某 一 项 目 上 高 
分 组 全 部 通过 ,而 低 分 组 只 有 1 人 答对 , 则 该 项 目的 区 分 度 为 ( ) 
A. 0.80 B. 0.22 C. 0.44 D. 0.40 
二 、 简 答题 
1. 简 述 项 目 难度 对 测验 的 影响 。 
2. 简 述 项 目 难度 与 区 分 度 的 关系 。 
、 计 算 题 
1. 某 道 单项 选择 题 ,100 人 参加 考试 ,80 人 通过 了 ,其 难度 是 多 少 ? 另外 一 道 单项 选择 题 ， 
相同 的 100 人 参加 考试 ,20 人 通过 了 ,其 难度 是 多 少 ? 哪 一 道 单项 选择 题 更 难 ? 为 什么 ? 
2. 根据 表 5 — 6 所 给 数据 ,计算 题目 的 区 分 度 指数 ,并 比较 哪 一 道 题 目的 区 分 度 指 数 更 


合适 ? 为 什么 ? 
表 5 -6 不 同 题目 高 分 组 和 低 分 组 选择 各 选项 的 人 数 
选择 各 选项 的 人 数 
题 号 正确 答案 D 
A B ĝ D 
高 分 组 6 35 9 0 
B 
低 分 组 18 10 22 0 
高 分 组 11 12 10 17 
2 e 


低 分 组 8 15 18 9 
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3. 用 某 测 验 6 道 题 对 11 名 被 试 施 测 ,所 得 数据 如 表 5- 7 所 示 , 请 回答 以 下 问题 。 
表 5-7 某 测验 6 道 题 对 11 名 被 试 施 测 的 数据 


as an A B C D E F G H I J K 
第 一 题 3 3 3 0 3 3 0 3 0 0 3 3 
第 二 题 5 5 0 5 5 0 0 5 5 5 0 0 
第 三 题 10 8 8 5 9 10 3 7 10 10 5 7 
第 四 题 12 10 12 7 8 5 5 9 8 7 6 7 
第 五 题 20 1 10 2 17 15 10 15 17 18 15 10 
第 六 题 50 45 30 20 42 35 25 38 38 44 40 23 

合计 100 86 63 49 84 68 43 77 78 84 69 50 


CL) 求 第 一 题 的 难度 和 区 分 度 。 
(2) 求 第 三 题 的 难度 和 区 分 度 。 
(3) 求 整个 测验 测量 的 信和 度 (a 系数 ) 。 


Ed 


第 六 章 测验 标准 化 


前 面 主要 益 述 了 * 常 模 ? 和 ”* 四 度 ”, 但 是 “四 化 ?也 是 相当 重要 的 ,这 是 因为 测验 标准 化 做 
得 不 好 ,误差 将 难以 控制 ,测量 的 信和 度 和 效 度 就 不 能 保证 。 一 个 测验 的 好 坏 取决 于 该 测验 的 
标准 化 水 平 。 测 验 标准 化 包括 测验 编制 标准 化 、 测 验 实 施 标准 化 ` 测 验 评分 标准 化 以 及 测验 
解释 标准 化 。 心 理 测验 如 同 用 “尺子 ”测量 心理 ,本 章 我 们 将 介绍 这 把 “尺子 ”是 怎么 做 出 来 
的 ,以 及 如 何 正确 使 用 这 把 “尺子 ”。 在 本 章 的 学 习 中 ,我 们 将 介绍 编制 测验 的 基本 程序 、 使 
用 测验 的 若干 原则 .评定 测验 的 技术 要 求 , 以 及 解释 测验 的 具体 规范 等 。 在 本 章 中 ,题目 
(item) ,又 称 为 项 目 、 条 目 或 试题 。 


第 一 节 ”测验 编制 标准 化 


不 同性 质 的 心理 测验 ,其 编制 方法 有 所 不 同 。 但 总 的 来 说 ,编制 一 个 可 供 使 用 的 标准 化 
的 心理 测验 ,一般 需要 经 过 以 下 几 个 步骤 : @ 确定 测验 目的 ;@ 制订 编制 计划 ;@ 拟定 测验 
项 目 ;@ 预测 与 项 目 分 析 ;@ 测验 合成 ;@ 测验 标准 化 ; 鉴定 测验 ;@) 编写 测验 说 明 。 下 
面 ,我 们 对 心理 测验 编制 的 一 般 程 序 作 简要 介绍 。 


一 、 确 定 测 验 目的 


在 编制 测验 前 ,应 明确 我 们 所 欲 测 的 究竟 是 什么 样 的 人 ,我 们 究 竞 想 测 什么 样 的 心理 特质 ， 
以 及 我 们 编制 的 测验 究竟 有 什么 用 , 即 测验 目的 。 确 定 测验 目的 包括 以 下 三 个 方面 的 具体 内 容 。 

(一 ) 测验 对 象 

测验 对 象 , 即 测验 所 要 测 的 人 ,或 者 说 测验 将 要 施 测 的 群体 。 我 们 通常 是 以 年 龄 .性别 、 
职业 、 受 教育 程度 、 经 济 状况 、 民 族 、 文 化 背景 等 指标 来 区 分 测验 对 象 。 测 验 对 象 的 性 质 不 
同 ,编制 的 测验 特性 也 不 同 。 

(二 ) 测验 目标 

测验 目标 , 即 测 验 所 要 测量 的 心理 特质 。 需 要 明确 测量 什么 心理 特质 ,是 能 力 、 人 格 ,还 
是 学 业 成 绩 等 。 不 仅 如 此 ,我 们 还 应 把 测验 目标 进一步 具体 化 。 例 如 ,人 的 态度 就 可 以 进 一 
步 分 为 认 知 方式 ,情感 表达 和 行为 倾向 3 个 成 分 。 把 测验 目标 具体 化 ,是 保证 测验 可 靠 、 有 
效 的 基本 条 件 。 

(三 ) 测验 用 途 

测验 用 途 , 即 所 编制 的 测验 是 干什么 用 的 ,是 用 于 心理 特征 的 描述 或 用 于 心理 问题 的 诊 
断 , 还 是 用 于 专业 人 才 的 选拔 ,等 等 。 测 验 用 途 不 同 ,编制 测验 时 的 取材 范围 以 及 项 目的 难 
度 等 也 会 有 所 不 同 。 


二 、 制 订 编 制 计划 
编制 计划 是 测验 编制 的 总 体 构思 。 制 订 编制 计划 就 是 要 根据 测验 目的 的 要 求 ,具体 指 


出 测验 的 内 容 结 构 ,详细 构建 项 目的 形式 、 难 度 、 长 度 等 ,合理 把 控 每 一 个 内 容 和 目标 的 相对 
侧重 等 。 对 于 测验 的 编制 计划 ,我 们 通常 用 命题 双向 细 目 表 来 呈现 。 例 如 ,小 学 生 自然 常识 
测验 的 命题 双向 细 目 表 就 是 小 学 生 自然 常识 测验 的 编制 计划 ,如 表 6 一 1 所 示 。 


表 6-1 小 学 生 自然 常识 测验 的 命题 双向 细 目 表 
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教学 目标 获得 基本 理解 原理 ”应 用 原理 PHAR BARS 评价 建立 合计 
教材 内 容 知识 原则 原则 关系 见解 标准 

生物 世界 3 6 6 3 2 1 20 
资源 利用 2 3 3 1 1 0 10 
动力 和 机 械 2 3 4 2 0 1 12 
特质 特性 与 能 量 5 6 8 3 2 1 25 
气象 2 4 3 2 2 0 13 
宇宙 2 5 4 1 0 0 12 
地 球 2 2 2 1 1 0 8 

合计 18 28 30 13 8 3 100 


测验 的 编制 计划 可 用 于 指导 测验 编制 工作 。 在 测验 项 目 编写 出 来 后 ,我 们 就 可 以 根据 


测验 的 编制 计划 进行 修改 与 核对 。 
三 、 拟 定 测验 项 目 


拟定 测验 项 目 需要 做 好 以 下 三 个 方面 的 工作 。 

(一 ) 收集 测验 资料 

一 个 测验 是 否 有 效 ,取决 于 测验 是 否 能 测量 到 我 们 所 欲 测 得 的 东西 ,因此 这 就 需要 我 们 
收集 适当 的 测验 资料 。 尽 管 不 同性 质 的 测验 所 依据 的 资料 内 容 有 所 不 同 , 但 是 都 必须 遵循 
以 下 原则 。 

(1) 丰富 性 。 人 的 心理 结构 的 复杂 性 要 求 我 们 只 有 从 多 方面 去 收集 资料 ,才能 开发 出 
具有 不 同 功能 .可 以 从 不 同 途径 进行 考察 的 测验 项 目 。 例 如 ,编制 人 格 测验 ,需要 收集 描述 
具有 人 格 特征 的 大 量词 汇 ,临床 资料 以 及 已 有 的 人 格 量 表 等 。 

(2) 普遍 性 。 这 就 要 求 我 们 做 到 以 下 两 个 方面 : 一 是 所 收集 的 资料 对 于 不 同文 化 背景 、 
不 同 经 济 地 位 ,不 同 地 区 的 个 体 或 群体 是 公平 的 ;二 是 所 收集 的 资料 应 当 全 面 地 反映 某 一 文 
化 背景 中 群体 的 基本 心理 特征 。 

(二 ) 选择 项 目 形式 

任何 一 种 测验 都 可 以 用 多 种 形式 的 项 目 来 考察 ,但 我 们 要 根据 各 个 具体 情况 选择 最 优 
的 项 目 形式 。 在 选择 项 目 形式 时 ,至 少 应 该 考虑 两 个 方面 的 因素 : 一 是 编制 测验 的 目的 和 
测验 材料 的 性 质 ;二 是 要 考虑 被 试 的 特点 和 人 数 的 多 少 。 

在 这 方面 ,前 人 曾 提出 了 一 些 可 供 参考 的 原则 : 

(1) 测验 方法 简单 明了 ; 

(2) 受 测 者 不 会 因 测验 形式 不 当 而 出 错 ; 


a 
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(3) 测验 过 程 省 时 ; 

(4) 计 分 省 时 省 力 ; 

(5) 测验 相对 经 济 。 

(三 ) 编写 测验 项 目 

测验 项 目的 编写 是 一 个 循环 往复 的 过 程 。 在 此 过 程 中 ,编制 者 需要 对 测验 项 目 进 行 反 
复 修 改 , 其 中 包括 订正 意思 不 明确 的 词语 删改 一 些 不 适当 的 项 目 ,以 及 增加 一 些 有 用 的 项 
目 等 。 

一 般 来 说 ,项 目 主要 有 以 下 几 个 来 源 : 

(1) 直接 选用 国内 外 优秀 的 相关 测验 的 项 目 ; 

(2) 修改 前 人 有 关 测验 中 的 项 目 ; 

(3) 自己 独立 编写 的 项 目 。 

在 编写 测验 项 目的 过 程 中 ,我 们 需要 注意 以 下 几 个 方面 的 问题 。 

(1) 测验 项 目的 取样 应 当 对 欲 测 心理 品质 具有 代表 性 。 

(2) 测验 项 目的 取材 范围 要 同 编制 计划 所 列 的 范围 相 一 致 

(3) 测验 项 目的 难度 分 布 应 有 一 定 的 范围 。 

(4) 编写 测验 项 目的 用 语 要 力求 精练 简短 .通俗 易 慌 。 

(5) 初 编 项 目的 数量 要 多 于 最 终 所 需 的 数量 ,以 便 筛 选 或 编制 复 本 。 

(6) 测验 项 目的 说 明 必须 简明 。 

一 般 来 说 ,根据 应 答 方 式 的 不 同 ,测验 项 目 可 分 为 提供 型 和 选择 型 两 种 。 提 供 型 项 目 又 称 
主观 性 题目 ,是 让 被 试用 自己 的 语言 或 行动 来 对 某 一 项 目 作 答 , 包 括 填空 题 \ 简 答题 \ 应 用 题 、 
论文 题 \ 联 想 题 操作 题 等 。 选 择 型 项 目 又 称 客观 性 题目 ,是 让 被 试 从 事先 做 好 的 有 限 的 儿 个 
答案 中 辨认 出 正确 答案 ,包括 多 选 题 ,是 非 题 ,匹配 题 等 ,这 种 项 目 因为 评分 客观 ,所 以 在 标准 
化 测验 中 用 得 较 多 。 各 种 类 型 的 项 目 虽然 性 质 不 同 、 功 能 各 异 ,但 是 在 编制 时 都 应 遵循 以 下 基 
本 原则 。 

(1) 项 目 要 符合 测验 的 目的 。 

(2) 内 容 取样 要 有 代表 性 。 

(3) 各 个 项 目 必须 彼此 独立 ,不 可 互相 牵连 ,不 要 使 一 个 项 目的 回答 影响 男 一 个 项 目的 
回答 。 

(4) 字句 要 简明 扼要 , 既 要 排除 与 解 题 无 关 的 因素 ,又 不 可 遗漏 解 题 所 依据 的 必要 条 
件 。 最 好 一 句 话说 明 一 个 概念 ,不 要 使 用 两 个 或 两 个 以 上 的 概念 ,要 避免 使 用 艰深 的 字句 ， 
尽量 少 用 双重 否定 句 。 

(5) 项 目 应 有 不 致 引起 争论 的 确定 答案 (创造 力 测验 .人 格 测验 除外 ) 。 

(6) 项 目 格式 不 要 使 被 试 发 生 误解 。 

(7) 项 目 中 不 可 含有 暗示 本 题 或 其 他 题 正确 答案 的 线索 。 

(8) 项 目 内 容 不 要 超出 受 测 团体 的 知识 和 能 力 。 

(9) 问题 应 避免 社会 禁忌 和 个 人 隐私 。 

(10) 施 测 与 评分 省 时 。 

在 完成 项 目的 初步 编制 后 ,编制 者 还 应 自己 或 者 请 相关 领域 的 专家 对 项 目 进行 初步 的 
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四 、 预 测 与 项 目 分 析 


初 编 的 测验 项 目 是 否 有 适当 的 难度 和 区 分 度 , 必 须 通过 预测 进行 测验 项 目 分 析 , 以 便 进 
一 步 修改 。 

(一 ) 预测 

预测 的 目的 在 于 获得 被 试 对 测验 项 目 所 做 的 反应 资料 , 它 既 能 提供 哪些 项 目 意 义 不 清 、 
容易 引起 误解 等 质 的 信息 ,又 能 提供 哪些 项 目 性 能 优 劣 等 量 的 信息 。 

在 进行 预测 时 ,需要 注意 以 下 问题 。 

(1) 预测 对 象 应 取 自 正 式 测验 时 准备 施 测 的 群体 , 即 样本 要 有 代表 性 。 

(2) 预测 情景 应 力求 同 正式 情景 一 致 。 

(3) 预测 时 间 可 以 适当 延长 ,以 便 每 一 位 受 测 者 都 能 完成 项 目 。 

CA) 施 测 者 需要 对 受 测 者 的 反应 加 以 记录 。 

(二 ) 项 目 分 析 

项 目 分 析 包 括 质 和 量 两 方面 的 分 析 : 一 是 要 从 内 容 上 检查 取样 的 适当 性 、 文 字 表 达 是 
否 清楚 等 ;二 是 要 对 预测 数据 进行 统计 分 析 ,确定 难度 、 区 分 度 以 及 备 选 答案 的 适宜 性 等 。 


五 、 测 验 合 成 


测验 合成 就 是 把 经 过 预测 后 的 认为 有 价值 的 项 目 有 序 地 组 织 起 来 ,编制 成 测验 ,主要 包 
括 以 下 三 个 方面 的 内 容 。 

(一 ) 测验 项 目的 选择 

测验 项 目的 选择 有 以 下 三 个 标准 。 

第 一 ,要 选择 那些 确 能 测 出 所 要 测量 的 心理 特质 的 项 目 。 

第 二 ,项 目 难 度 要 恰当 。 难 度 的 选择 需 依 测验 的 目的 而 定 。 一 般 来 说 ,选拔 性 的 测验 要 
求 有 较 高 的 难度 ,而 人 格 测验 则 一 般 不 对 难度 作 要 求 。 

第 三 ,项 目 区 分 度 要 高 。 

此 外 ,还 应 考虑 测验 的 长 度 问 题 。 一 个 测验 究 竞 应 包括 多 少 项 目 , 需 要 根据 测验 的 时 
限 、 对 象 以 及 测验 的 性 质 而 定 。 

(二 ) 测验 项 目的 编排 

对 于 选 出 的 项 目 需要 进行 合理 的 安排 。 项 目 编排 的 总 原则 是 由 易 到 难 , 这 样 可 以 使 受 
测 者 很 快 了 解答 题 的 程序 ,消除 紧张 ,也 可 以 避免 受 测 者 在 难题 上 耽误 太 多 的 时 间 而 影响 后 
面 问题 的 作答 。 

项 目 编排 一 般 有 以 下 两 种 形式 。 

(1) 并 列 直 进 式 。 其 将 整个 测验 按 测 验 项 目的 性 质 归 为 若干 分 测验 ,同一 分 测验 的 项 
目 , 依 难 易 程度 排列 ,如 韦 氏 智力 量 表 。 

(2) 混合 螺旋 式 。 其 主要 考虑 将 各 类 测验 项 目 依 难 度 排 列 , 在 同一 难度 层次 中 ,可 以 组 
合 不 同性 质 的 项 目 ;从 整个 测验 看 ,不 同类 型 项 目 交叉 出 现 , 但 其 难度 逐渐 升 高 ,如 比 内 智力 
量 表 。 

(三 ) 测验 复 本 的 编制 

为 保证 某 些 实际 的 需要 ,一 种 测验 至 少 要 有 等 值 的 两 个 复 本 。 编 制 测验 复 本 的 关键 是 
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进行 测验 等 值 ,但 进行 测验 等 值 需要 符合 下 列 条 件 。 

(1) 各 份 测验 测量 的 是 同一 心理 特质 。 

(2) 各 份 测验 具有 相同 的 内 容 和 形式 。 

(3) 各 份 测验 不 应 有 过 多 重复 的 项 目 。 

(4) 各 份 测验 项 目 数量 相同 ,并 且 难 度 和 区 分 度 大 体 相同 。 

关于 测验 等 值 的 具体 技术 性 问题 和 方法 ,我 们 将 在 本 章 后 面 的 章节 中 进行 更 加 详细 地 
介绍 。 


六 、 测 验 标 准 化 


一 个 测验 的 好 坏 , 也 取决 于 对 测验 的 标准 化 程度 。 所 谓 标 准 化 ,是 指 测验 的 编制 实施、 
评分 以 及 分 数 解释 的 程序 的 一 臻 性。 具体 而 言 ,测验 标准 化 包括 下 列 内 容 。 

(一 ) 测验 内 容 

标准 化 的 首要 前 提 是 对 所 有 受 测 者 实施 相同 或 等 值 的 题目 ,测验 内 容 不 同 质 ,所 测 得 的 
结果 就 无 法 进行 比较 。 

(=) 施 测 过 程 

施 测 过 程 标准 化 要 求 所 有 的 受 测 者 必须 在 相同 的 条 件 下 施 测 ,包括 相同 的 测验 情境 、 相 
同 的 指导 语 、 相 同 的 测验 时 限 等 。 

三 ) 评分 程序 

评分 程序 标准 化 是 测验 标准 化 的 第 三 个 条 件 , 这 就 意味 着 两 个 或 两 个 以 上 的 评分 者 对 
同一 份 测验 的 评定 需要 比较 一 致 。 一 般 来 说 ,不 同 评分 者 之 间 的 一 致 性 只 有 达到 0. 90 以 
上 , 才 可 认为 评分 是 客观 的 。 对 测验 进行 客观 性 评分 包括 以 下 几 个 方面 的 要 求 。 

(1) 对 受 测 者 的 反应 要 及 时 清楚 地 记录 。 

(2) 要 有 标准 答案 或 正确 反应 的 表格 , 即 记分 键 。 

(3) 要 将 受 测 者 的 反应 与 记分 键 比较 来 确定 受 测 者 的 得 分 。 

(四 ) 分 数 解 释 

一 个 标准 化 测验 ,不 仅 要 求 测验 内 容 、 施 测 过 程 和 评分 程序 标准 化 ,还 要 求 对 测验 有 标 
准 化 的 分 数 解 释 。 如 果 对 同一 测验 结果 可 作 不 同 解释 ,那么 测验 就 有 可 能 失去 了 客观 性 。 


+, SRNR 


测验 编制 好 后 ,必须 对 其 可 靠 性 和 有 效 性 进行 鉴定 ,以 便 确定 该 测验 是 否 可 用 。 对 测验 
的 鉴定 ,主要 是 确定 其 测量 的 信和 度 和 效 度 。 关 于 信和 效 度 的 基本 内 容 我 们 在 前 面 的 章节 中 已 
经 详细 地 介绍 过 了 ,在 此 就 不 再 袭 述 。 


八 、 编 写 测验 说 明 


测验 说 明 不 仅 能 够 向 使 用 者 说 明 该 测验 应 该 如 何 施 测 ,同时 也 能 够 成 为 使 用 者 评价 和 
选择 测验 的 依据 。 测 验 说 明 应 包括 下 列 内容 。 

(1) 测验 的 目的 与 功用 。 

(2) 测验 的 理论 依据 。 

(3) 测验 的 内 容 、 施 测 方法 及 注意 事项 。 


(4) 测验 的 标准 答案 及 评分 方法 。 

(5) 测验 的 信 效 度 说 明 。 

(6) 测验 的 常 模 资料 , 即 如 何 依据 常 模 解 释 测 验 结果 。 
总 之 ,一 个 完整 的 测验 编制 标准 化 步骤 如 图 6 一 1 所 示 。 


确定 测验 对 象 、 目 标 、 用 途 


i 


[确定 性 质 : 常 模 参照 或 标准 参照 
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知识 型 ; 内 容 分 析 能 力 型 : 工作 分 析 


确定 测验 内 容 


1 
制订 编制 计划 (蓝图 ) 


1 
项 目 开发 编选 : 拟稿 、 预 测 、 项 目 分 析 、 定 稿 


标准 化 : 内 容 、 时 限 、 指 导语 、 施 测 、 评 分 、 常 模 


A d 
| 测验 质量 验证 信 度 、 效 度 | 


y. 
l 编写 测验 说 明 | 


成 为 待 用 测验 


图 6-1 测验 编制 标准 化 步骤 示意 图 


第 二 节 ”测验 实施 标准 化 


心理 测验 的 基本 原理 在 于 通过 观测 受 测 者 在 测验 情境 中 的 行为 样本 ,推断 他 平日 的 一 般 
行为 特征 。 这 就 要 求 我 们 在 标准 化 测量 工具 的 基础 上 ,测验 的 实施 也 要 标准 化 。 而 要 做 到 测 
验 实施 的 标准 化 ,就 需要 测验 者 全 面 了 解 施 测 过 程 中 的 哪些 因素 会 影响 到 测验 结果 ,并 对 这 些 
因素 进行 有 效 地 控制 。 下 面 我 们 将 详细 地 介绍 测验 实施 标准 化 需要 注意 的 几 个 方面 。 

一 、 主 试 的 资格 

主 试 主导 着 测验 的 实施 。 主 试 本 身 的 素质 、 主 试 对 测验 的 熟悉 程度 以 及 主 试 对 结果 评 
价 的 合理 把 握 等 都 直接 决定 了 测验 实施 的 成 败 。 因 此 ,为 了 测验 有 效 地 实施 ,首先 必须 对 主 
试 的 资格 进行 审核 。 一 般 来 说 , 主 试 需要 满足 以 下 三 个 方面 的 要 求 才 能 较 好 地 实施 心理 
测验 。 

(一 ) 心理 测验 的 理论 知识 

对 理论 知识 的 掌握 是 测验 正确 实施 的 保证 ,也 是 考核 主 试 资格 最 基本 的 要 求 。 主 试 只 
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有 充分 掌握 了 心理 测验 的 理论 知识 ,才能 在 测验 实施 时 自觉 严格 地 按照 测验 标准 化 的 科学 
程序 来 进行 施 测 。 

(二 ) 心理 测验 的 专业 技能 

心理 测量 学 作为 一 门 单独 的 学 科 , 有 其 科学 性 和 实践 性 ,所 以 光 有 理论 知识 是 远 远 不 够 
的 ,同时 还 必须 具备 测验 施 测 的 实际 操作 技能 和 丰富 的 经 验 。 

目前 ,许多 个 别 施 测 的 测验 ,由 于 操作 规程 和 手续 比较 复杂 ,对 测验 的 实施 ,评分 和 结果 
的 解释 都 有 很 高 的 要 求 ,这 就 要 求 事先 对 主 试 进行 培训 。 另 外 ,需要 注意 的 是 ,由 于 许多 测 
验 的 性 质 特点 不 同 ,操作 方法 各 异 , 因 此 不 同 的 测验 都 要 有 针对 性 地 进行 培训 。 

相 较 于 个 别 施 测 而 言 ,团体 施 测 的 测验 对 主 试 的 要 求 就 没有 那么 高 了 ,其 培训 过 程 也 相 
对 简单 , 主 试 只 要 在 测验 前 对 测验 内 容 及 实施 细则 作 细 致 地 了 解 后 ,就 可 以 进行 施 测 。 

三 ) 测验 工作 者 的 职业 道德 

心理 测验 工作 者 承担 着 重大 的 社会 责任 ,许多 国家 的 有 关 部 门 都 对 心理 测验 工作 者 的 
职业 道德 做 出 了 明确 的 规定 。2015 年 ,中 国 心理 学 会 也 颁布 了 《心理 测验 工作 者 职业 道德 
规范 》( 见 本 书 附录 ) ,我 国 的 心理 测验 工作 者 都 需 严格 遵守 该 规范 的 有 关 条 例 。 测 验 工作 者 
对 待 心理 测验 的 职业 道德 包括 测验 的 保密 、 测 验 的 控制 使 用 ,测验 中 个 人 隐私 的 保护 等 。 


二 、 测 验 的 选择 


心理 测量 中 可 供 选择 的 测验 有 很 多 ,选择 什么 样 的 测验 进行 施 测 ,这 是 主 试 首先 应 该 考 
虑 的 问题 ,需要 依 测验 目的 、 被 试 情况 和 测验 质量 等 因素 而 定 。 

(—) 根据 测验 目的 来 选择 测验 

测验 目的 是 什么 ,这 是 我 们 在 选择 测验 时 应 该 考虑 的 问题 。 不 同 的 测验 有 不 同 的 用 途 
和 使 用 范围 ,这 就 需要 我 们 在 施 测 前 对 各 种 测验 的 功用 、 特 点 以 及 优 缺点 有 一 个 初步 的 了 
解 , 并 通过 测验 手册 来 获得 最 必要 的 信息 。 在 实际 工作 中 ,不 但 不 同 目的 要 选用 不 同 的 测 
验 ,同时 还 必须 了 解 该 测验 真正 所 测量 的 心理 特质 及 适用 范围 ,否则 ,就 会 造成 测验 的 使 用 
不 当 。 

(二 ) 根据 被 试 情况 来 选择 测验 

被 试 情况 也 是 选择 测验 的 重要 依据 。 例 如 ,通常 来 说 ,被 试 年 龄 是 选择 测验 时 一 个 重要 
的 参考 指标 。 因 为 每 一 个 测验 都 有 其 适用 的 年 龄 范围 ,不 在 此 范围 内 的 被 试 是 不 能 接受 该 
测验 的 。 另 外 ,年 龄 还 会 影响 到 测验 的 形式 ,比如 年 龄 较 小 的 儿童 就 不 适合 于 进行 团体 
施 测 。 

(=) 根据 测验 质量 来 选择 测验 

除了 根据 测验 目的 和 被 试 情况 来 选择 测验 外 ,还 应 该 考虑 测验 本 身 的 质量 。 测 验 质量 
是 一 个 测验 编制 好 坏 的 重要 指标 ,其 中 测验 测量 的 信 度 、 效 度 的 优 劣 常常 被 用 来 作为 选择 测 
验 的 重要 依据 。 一 个 好 的 测验 除了 要 有 较 好 的 信 度 、 效 度 外 ,同时 还 要 有 优良 的 常 模 。 常 模 
是 否 合适 ,要 看 其 标准 化 样本 是 否 具有 充分 的 代表 性 。 所 以 ,从 国外 引进 的 测验 ,一 定 要 予 
以 修订 ,除了 把 内 容 不 合适 的 项 目 进行 修改 和 删除 外 ,还 要 根据 我 国 的 实际 情况 重新 制定 新 
的 常 模 。 另 外 ,在 选择 测验 时 还 应 该 考虑 测验 的 时 效 性 ,这 既 包 括 项 目 内 容 的 时 效 性 ,也 包 
括 常 模 资料 的 时 效 性 。 

以 上 三 个 方面 是 选择 测验 时 所 需要 考虑 的 因素 。 只 有 选择 了 一 个 可 靠 的 测量 工具 , 测 


验 的 结果 才 有 意义 。 
三 、 测 验 的 准备 


一 个 好 的 施 测 程序 最 重要 的 就 是 预先 准备 好 测验 。 为 了 确保 测验 实施 的 标准 化 , 主 试 
在 测验 前 应 认真 做 好 以 下 几 项 准备 工作 。 

(一 ) 施 测 前 的 准备 工作 

施 测 前 的 准备 工作 是 保证 测试 顺利 完成 测验 实施 标准 化 的 必要 环节 ,主要 包括 以 下 几 
ATH iti, 

(1) 准备 好 测验 材料 。 施 测 者 必须 将 所 要 用 的 材料 按 一 定 顺序 放置 在 适当 的 位 置 ,使 
受 测 者 易于 看 到 和 找到 。 通 常 , 大 部 分 的 智力 测验 都 有 操作 测验 ,操作 材料 的 放置 都 应 有 相 
应 的 位 置 。 这 些 都 是 需要 事先 做 好 的 准备 工作 。 

(2) 熟练 掌握 施 测 程序 。 这 就 需要 事先 对 主 试 进行 训练 ,主要 包括 熟悉 测验 内 容 、 掌 握 
施 测 步骤 、 理 解 计 分 方法 、 明 了 分 数 解释 等 。 

(3) 熟悉 测验 指导 语 。 施 测 者 能 用 口语 将 测验 指导 语 清楚 地 表达 出 来 。 

(二 ) 选择 合适 的 测验 情境 

测验 情境 包括 测验 房间 的 环境 .座位 的 布置 .答案 纸 的 放置 等 ,这 些 都 会 影响 测验 分 数 ， 
因而 需要 控制 ,使 每 位 被 试 都 尽量 保持 相同 。 当 然 , 在 实际 施 测 中 并 不 是 每 次 都 能 找到 很 理 
想 的 测验 环境 ,这 就 需要 主 试 的 经 验 了 。 一 旦 发 现 被 试 因 环境 因素 而 受到 干扰 ,就 应 立即 停 
止 测验 ,并 设法 克服 与 消除 干扰 。 

(三 ) 协助 被 试 做 好 先前 的 准备 

测验 时 双方 互动 交流 的 过 程 , 光 有 主 试 的 良好 准备 是 不 够 的 ,还 要 有 被 试 的 合作 。 测 验 
应 在 被 试 处 于 最 佳 的 心理 .生理 状态 时 进行 。 因 此 , 主 试 应 协助 被 试 做 好 这 方面 的 先前 的 准 
备 ,主要 包括 时 间 的 选择 ,生理 的 准备 以 及 心理 的 准备 等 。 


四 、 测 验 的 实施 


实施 测验 时 需要 获得 被 试 在 标准 环境 中 最 典型 的 行为 。 因 此 ,严格 按照 测验 说 明 中 的 
规定 进行 施 测 ,是 测验 标准 化 过 程 中 必须 做 到 的 一 点 。 标 准 化 的 测验 都 对 实施 过 程 有 明确 
的 说 明 ,必须 遵照 执行 ,主要 包括 以 下 几 个 方面 。 

(一 ) 指导 语 和 时 限 

指导 语 的 主要 作用 是 使 受 测 者 以 正确 的 方式 对 项 目 进 行 反 应 。 心 理 测验 的 指导 语 通常 
包括 对 测验 目的 的 说 明和 对 题目 反应 方式 的 解释 。 指 导语 将 直接 影响 受 测 者 反应 的 态度 和 
方式 。 在 表述 指导 语 时 , 主 试 需要 注意 不 要 暗示 受 测 者 选择 什么 样 的 答案 ,一 般 要 求 测验 的 
主 试 在 表述 指导 语 时 应 保持 中 立 的 态度 。 

时 间 限 制 也 是 测验 规范 化 的 一 项 重要 内 容 。 一 般 地 .能 力 测验 和 成 就 测验 都 要 求 有 严 
格 的 时 间 限 制 ,因为 速度 是 能 力 测验 的 一 个 重要 因素 。 然 而 ,人 格 测验 和 态度 测验 一 般 不 要 
求 有 严格 的 时 间 限 制 。 

(二 ) 做 好 记录 

主 试 在 做 记录 时 ,有 以 下 两 点 需要 特别 注意 。 

(1) 记录 要 隐蔽 。 主 试 在 做 记录 时 要 尽量 避免 让 被 试 知道 ,否则 会 影响 被 试 作答 的 
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反应 。 
(2) 记录 要 客观 。 主 试 的 记录 要 真实 地 反映 被 试 作答 的 情况 ,记录 时 的 表述 要 中 立 客 
观 ,不 能 摊 杂 主 试 的 主观 猜测 和 推断 。 


五 、 影 响 被 试 作答 反应 的 因素 


除了 测验 本 身 的 因素 外 ,被 试 作答 反应 的 因素 也 会 影响 到 测验 最 终 的 结果 。 因 此 ,我 们 
在 施 测 时 要 尽 可 能 多 地 考虑 这 些 因 素 并 控制 其 影响 。 影 响 被 试 作答 反应 的 因素 主要 包括 以 
下 几 个 方面 。 

(一 ) 经 验 技巧 

被 试 的 测验 经 验 和 应 试 技巧 会 影响 测验 分 数 。 具 有 测验 经 验 和 应 试 技巧 的 被 试 能 在 测 
验 中 更 合理 地 分 配 时 间 ,能 够 觉察 出 答案 间 的 细微 差别 等 ,从 而 他 们 的 成 绩 有 可 能 会 比 那些 
缺乏 测验 经 验 和 应 试 技巧 的 被 试 要 好 。 因 此 ,在 施 测 前 ,应 尽量 使 每 个 被 试 都 熟悉 测验 的 实 
施 步骤 和 所 需 技巧 。 

(二 ) 练习 效应 

如 果 一 个 测验 连续 地 对 同一 被 试 团 体 进 行 多 次 施 测 , 那 么 就 会 产生 明显 的 练习 效应 。 
这 一 点 在 能 力 测验 中 显得 尤为 突出 。 因 此 ,我 们 应 尽量 避免 对 同一 被 试 团体 连续 施 测 同一 
测验 ,取而代之 ,我 们 可 以 使 用 平行 测验 。 

三 ) 专门 指导 

如 果 在 测验 前 ,对 被 试 进行 有 针对 性 的 专门 指导 ,那么 被 试 的 分 数 就 可 能 会 有 所 改变 。 
这 是 因为 ,有 针对 性 的 专门 指导 会 使 被 试 降低 对 测验 的 焦虑 ,对 测验 内 容 更 为 熟悉 ,也 会 使 
被 试 具备 更 多 的 应 试 技巧 等 。 

(四 ) 应 试 动机 

被 试 参加 测验 的 动机 会 影响 到 其 作答 的 反应 .这 其 中 包括 作答 的 态度 、 注 意 力 、 持 久 性 
以 及 反应 时 等 。 测 验 不 同 , 应 试 动机 所 影响 的 方式 也 不 同 。 例 如 ,在 态度 测验 中 ,如 果 被 试 
为 留 下 好 的 印象 ,那么 就 会 考虑 主 试 或 者 社会 的 期 望 ,产生 社会 期 许 效 应 或 社会 赞许 效应 。 
在 能 力 测验 中 ,如 果 被 试 应 试 动机 不 强 ,那么 就 不 会 尽力 去 答题 。 然 而 ,投射 测验 不 太 容易 
受 被 试 应 试 动机 的 影响 。 

如 果 影 响 被 试 应试 动 机 的 因素 在 测验 中 恒定 出 现 ,那么 就 会 产生 系统 误差 ,使 测验 的 有 
效 性 降低 ;如 果 影响 被 试 应 试 动机 的 因素 在 测验 中 不 恒定 出 现 .那么 就 会 产生 随机 误差 ,使 
测验 的 有 效 性 和 可 靠 性 同时 降低 。 

(五 ) 测验 焦虑 

测验 焦虑 是 指 被 试 因 接受 测验 而 产生 的 一 种 忧虑 和 紧张 的 情绪 ,其 会 影响 到 测验 结果 
的 真实 性 。 适 度 的 焦虑 会 提高 智力 测验 、 成 就 测验 和 能 力 倾向 测验 的 成 绩 。 因 此 ,在 施 测 
时 , 主 试 应 注意 避免 带 有 威胁 、 和 警告 或 者 恐吓 的 言辞 ,以 免 被 试 产生 过 分 的 焦虑 。 

(六 ) 反应 定 势 

反应 定 势 是 指 独立 于 测验 内 容 以 外 的 被 试 的 一 种 反应 倾向 , 即 由 于 每 个 人 的 答题 习惯 
不 同 ,从 而 使 具有 相同 能 力 的 被 试 获得 不 同 的 分 数 。 定 势 的 产生 既 有 生理 因素 ,也 有 心理 因 
素 。 例 如 ,饥饿 、 疲 劳 等 生理 因素 可 能 会 产生 消极 的 反应 定 势 , 而 某 些 态 度 、 价 值 观 等 心理 
素 也 可 能 会 产生 消极 的 反应 定 势 。 反 应 定 势 对 被 试 作答 心理 测验 有 影响 。 例 如 ,有 些 被 试 
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认为 选项 长 .内容 多 的 答案 一 般 是 正确 答案 ,这 是 有 喜好 较 长 选项 的 反应 定 势 。 因 此 ,在 编 
制 测验 时 ,我 们 应 该 尽量 使 选项 的 长 度 保持 一 致 ,以 避免 发 生 此 类 问题 。 


第 三 节 ”测验 评分 标准 化 


一 、 测 验 评 分 


评分 是 整个 测验 施 测 过 程 的 最 后 一 步 ,也 是 为 进行 测验 结果 解释 做 好 准备 的 关键 环节 。 
每 份 测验 都 有 其 各 自 的 评分 方法 ,对 于 测验 的 评分 我 们 需 严 格 按照 测验 说 明 上 的 规定 来 

(一 ) 原始 分 数 的 计算 

通常 来 说 ,我 们 根据 被 试 的 实际 作答 情况 ,按照 测验 的 评分 标准 与 程序 ,对 每 一 个 测验 
项 目 进行 评分 ,并 计算 出 被 试 总 的 得 分 情况 ,以 此 计算 出 的 分 数 称 为 原始 分 数 或 粗 分 (raw 
score) 。 原 始 分 数 的 评定 并 不 复杂 ,因为 每 一 份 标准 化 的 测验 ,对 项 目的 计 分 都 有 详细 的 规 
定 , 甚 至 有 标准 的 答案 作为 参照 ,因此 主 试 只 需要 按照 标准 的 答案 给 出 分 数 即 可 。 

(二 ) 原始 分 数 的 转换 

事实 上 ,在 心理 测量 中 ,原始 分 数 本 身 的 意义 并 不 大 ,因为 其 既 无 相等 的 单位 ,也 无 共同 
的 参照 点 。 因 此 ,不同 测 验 或 者 不 同 群体 的 原始 分 数 之 间 就 无 法 进行 比较 。 这 时 ,就 需要 我 
们 将 原始 分 数 转换 为 量 表 分 数 ( 如 标准 分 数 或 其 他 导出 分 数 ) 。 

不 同 测验 或 分 测验 上 的 原始 分 数 并 不 能 直接 进行 比较 ,但 转换 成 量 表 分 数 后 就 可 以 进 
行 比较 了 。 在 标准 化 的 测验 中 ,测验 编制 者 通常 会 提供 一 个 常 模 表 , 它 的 主要 功能 就 是 把 原 
始 分 数 转 换 为 量 表 分 数 。 关 于 常 模 的 具体 内 容 大 家 可 以 参见 前 面 的 章节 。 


二 、 测 验 等 什 


在 心理 测量 实践 中 ,经 常会 遇 到 一 个 测验 需要 配备 多 个 形式 测验 的 情况 ,特别 是 那些 测 
验 内 容易 受 记 忆 或 针对 性 训练 影响 的 测验 ,这 些 测验 在 使 用 之 前 需 严 格 保密 ,但 在 使 用 之 后 
便 不 能 再 用 ,因此 必须 配备 多 个 不 同形 式 供 多 次 施 测 所 用 的 测验 。 对 于 这 种 情况 ,测验 的 编 
制 者 都 希望 不 同形 式 的 测验 应 该 是 “相等 ”的 ,也 就 是 说 ,对 于 同一 被 试 来 说 ,各 个 不 同形 式 
测验 所 测 结果 应 该 是 完全 一 样 的 。 测 量 学 上 为 达到 这 一 目的 而 发 展 起 了 一 套 专门 的 技术 ， 
称 为 测验 等 值 (test equating)。 

(一 ) 测验 等 值 的 含义 

在 社会 生活 中 ,对 具有 不 同 单位 的 事物 进行 比较 是 很 常见 的 ,比如 ,英尺 和 公 尺 、 欧 元 与 
美元 等 。 我 们 知道 ,要 对 这 些 具有 不 同 单位 的 事物 进行 比较 ,首先 就 要 对 它们 进行 单位 转 
换 , 让 它们 具有 相同 单位 从 而 可 以 进行 比较 。 经 过 转换 ,事物 的 原 有 数值 表现 为 新 值 ,但 这 
仅 表 现 为 形式 的 变化 ,其 “客观 价值 ”或 “真实 值 " 并 未 改变 。 

在 心理 测量 领域 ,为 把 所 有 不 同形 式 测验 上 的 分 数 都 转换 到 同一 分 数量 纲 上 ,以 达到 统一 评 
价 的 目的 而 发 展 起 来 的 专门 技术 称 为 测验 等 值 。 从 本 质 上 说 ,测验 等 值 就 是 对 考核 同一 种 心理 特 
质 的 多 种 形式 测验 作出 测量 分 数 系统 的 等 值 转换 ,进而 使 得 这 些 来 自 不 同形 式 测验 的 分 数 之 间 有 具 
有 可 比 性 。 心 理 测验 的 等 值 比 度量 系统 的 转换 要 复杂 得 多 ,其 根本 原因 在 于 所 测 对 象 的 差异 , 心 
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理 测 验 所 测 的 是 人 的 心理 结构 与 特性 ,是 物质 发 展 的 最 高 形态 ,结构 非常 复杂 。 

同一 测验 不 同 复 本 得 到 的 分 数 ,特别 是 同一 科目 不 同 测验 得 到 的 分 数 ,如 果 需 要 比较 ， 
那么 就 要 进行 等 值 转 换 。 和 否则 , 按 统一 标准 认定 资格 .公平 合理 进行 岗位 选拔 .针对 实际 情 
况 分 配 工作 等 ,都 是 不 可 能 的 。 同 时 ,也 不 可 能 科学 地 合并 资料 ,再 针对 性 地 做 进一步 定量 
分 析 。 所 以 ,测验 等 值 的 作用 首先 就 体现 在 合理 使 用 分 数 上 。 测 验 等 值 的 作用 还 体现 在 科 
学 建设 题库 和 编制 测验 上 。 题 库 由 大 量 的 试题 构成 ,这 些 试题 的 项 目 参 数 ,如 难度 .区 分 度 
等 ,都 应 表达 在 同一 量 纲 上 。 只 有 当 这 些 参数 都 表达 在 同一 量 纲 上 时 , 才 有 可 能 按照 规则 合 
理 地 被 调用 ,以 便 生 成 指定 性 能 的 试卷 。 因 此 ,测验 等 值 是 建设 题库 的 基础 性 工作 ,也 是 保 
证 科学 编制 测验 的 必 备 前 提 。 

另外 ,需要 注意 的 一 点 是 ,测验 等 值 中 所 说 的 测量 分 数 系统 的 等 值 转换 与 将 测验 原始 分 
数 转换 为 导出 分 数 ( 导 出 分 数 转换 ) 是 不 同 的 。 等 值 转换 的 目的 是 比较 两 个 不 同形 式 测验 之 
间 的 实测 分 数 ,而 导出 分 数 转 换 的 目的 是 为 了 将 一 个 实测 分 数 转 换 到 一 个 可 评价 个 体 相 对 
位 置 的 分 数 系统 上 去 。 等 值 转换 是 两 个 或 多 个 不 同形 式 测验 测量 分 数 系统 的 转换 ,而 导出 
分 数 转换 却 只 是 一 个 形式 测验 测量 分 数 系统 的 转换 ,两 者 之 间 是 有 本 质 区 别 的 。 

(二 ) 测验 等 值 的 条 件 

测验 等 值 的 目的 是 为 了 获取 不 同形 式 测验 分 数 或 题目 参数 之 间 单 位 系统 的 转换 关系 。 很 
明显 ,这 种 关系 应 该 是 客观 存在 的 。 否 则 ,作出 的 转换 就 没有 任何 实际 意义 。 但 是 ,并 非 任 意 
不 同形 式 测验 都 能 进行 单位 系统 的 转换 。 通 常 进行 测验 等 值 需要 满足 如 下 条 件 。 

(1) 同 质 性 。 被 等 值 的 不 同形 式 测验 所 测 的 必须 是 同一 种 心理 特质 ,测验 的 内 容 与 范 
围 也 应 该 基本 相同 。 不 是 测 同 一 种 心理 特质 的 测验 是 不 能 进行 等 值 的 ,这 就 如 同 厘米 不 能 
等 值 转换 为 克 一 样 ,因为 其 所 测量 的 对 象 不 具有 同 质 性 。 

(2) 等 信 度 。 被 等 值 的 不 同形 式 测验 必须 具有 大 致 相等 的 测量 的 信和 度 , 不 能 指望 一 个 
低 信 度 的 测验 ,通过 与 一 个 高 信 度 的 测验 等 值 而 提高 自身 的 可 靠 性 。 信 度 不 等 的 测验 由 于 
测验 误差 不 同 , 不 能 进行 等 值 转换 。 

G) 公平 性 。 公 平 性 是 指 被 试 参加 被 等 值 的 不 同形 式 的 任何 一 个 测验 ,等 值 后 的 结果 
应 该 大 致 一 样 ,不 能 出 现 同一 个 体 参加 不 同形 式 的 测验 ,等 值 后 的 结果 存在 过 高 或 过 低 的 
现象 。 

(4) 可 递 推 性 。 如 果 一 个 测验 X 与 测验 立 之 间 有 等 值 转换 关系 了 一 AX 十 也 ,而 测验 Z 
与 测验 X 之 间 有 等 值 转换 关系 X=A'Z +B’ ,那么 就 一 定 有 测验 Z 与 测验 Y 之 间 的 关系 存 
在 , 即 Y==AX 十 B 二 A(A'Z 十 B') 十 B。 这 种 递 推 关 系 还 可 以 推 至 更 多 的 已 等 值 的 测验 。 

(5) 对 称 性 。 如 果 两 个 待 等 值 的 测验 X 与 Y 之 间 的 等 值 转换 关系 已 求 得 ,那么 从 测验 
X 转换 到 测验 了 的 关系 Y= 二 AX 十 B, 就 等 于 从 Y 转换 到 XX 的 道 关系 X 一 (Y 一 B)/A。 这 里 
需要 注意 的 是 ,这 种 关系 与 回归 分 析 中 的 关系 是 不 同 的 。 一 般 地 ,Y 对 X 的 回归 并 不 等 于 X 
对 Y 的 回归 的 逆 , 这 是 因为 回归 分 析 中 的 关系 是 非 对 称 的 ,但 测验 等 值 中 的 关系 是 对 称 的 。 

(6) 样本 不 变性 。 测 验 X 与 测验 Y 的 等 值 关系 是 由 X 与 Y 本 身 的 内 在 性 质 决定 的 ,与 
为 寻找 这 种 等 值 关系 而 采集 数据 时 所 使 用 的 样本 没有 关系 ,与 采集 数据 时 测验 的 情境 也 没 
有 关系 。 如 果 测 验 等 值 关系 会 受到 测试 样本 或 测验 情境 的 影响 而 发 生变 化 ,那么 所 获得 的 
等 值 关 系 就 是 一 种 虚假 的 等 值 关 系 。 

在 测验 等 值 中 ,如 果 待 等 值 的 测验 能 满足 以 上 6 个 条 件 ,那么 等 值 结果 将 令 人 满意 。 但 
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是 ,在 实际 操作 中 ,要 同时 符合 以 上 这 些 条 件 是 比较 困难 的 ,尤其 是 测验 等 值 的 条 件 的 对 称 
性 和 样本 不 变性 ,更 难 满足 。 

(三 ) 测验 等 值 的 误差 

测验 等 值 完成 后 需要 对 等 值 结果 进行 评价 。 评 价 等 值 结果 可 靠 性 与 准确 性 的 指标 通常 
是 测验 等 值 的 误差 。 测 验 等 值 的 误差 有 两 种 : 等 值 随机 误差 和 等 值 系统 误差 。 

由 于 等 值 数据 通常 来 自 被 试 的 随机 样本 ,因此 样本 的 均 数 、 方 差 . 百 分 等 级 等 都 可 以 被 
用 来 估计 等 值 关 系 。 然 而 ,将 这 些 样本 统计 量 作 为 总 体 参数 的 估计 值 ,都 是 有 抽样 误差 的 ， 
从 而 造成 了 等 值 过程 中 的 随机 误差 。 测 量 学 把 由 抽样 而 引起 的 等 值 误 差 称 作 等 值 随机 误 
差 。 等 值 随机 误差 可 以 用 一 定 的 方法 进行 估计 ,但 不 同 的 方法 可 能 产生 不 同 的 等 值 随 机 误 
差 。 等 值 随 机 误差 是 一 个 变量 ,会 随 被 等 值 的 具体 分 数 而 变化 。 但 总 的 趋势 是 ,等 值 随 机 误 
差 会 随 样 本 容量 的 增 大 而 减 小 。 

等 值 系统 误差 产生 的 原因 比 等 值 随机 误差 产生 的 原因 要 复杂 得 多 。 我 们 在 前 面 已 讲 
过 ,进行 等 值 转换 时 需 满足 某 些 条 件 , 如 果 这 些 条件 不 能 得 到 充分 满足 ,那么 就 可 能 会 产生 
等 值 系统 误差 。 例 如 ,被 试 分 别 参加 了 两 种 形式 的 测验 ,但 两 种 形式 的 测验 的 信 度 差异 较 
大 ,这 时 的 等 值 结果 就 会 产生 等 值 系统 误差 。 等 值 系 统 误差 与 等 值 随 机 误差 不 同 ,等 值 系 统 
误差 难以 量化 和 发 现 ,其 大 小 也 不 随 样本 的 增 大 而 减 小 。 因 此 ,对 等 值 系统 误差 的 控制 比 对 
等 值 随机 误差 的 控制 要 难得 多 。 

(四 ) 测验 等 值 的 设计 

在 进行 测验 等 值 的 设计 时 ,我 们 既 要 考虑 等 值 资料 的 实际 情况 ,也 要 考虑 统计 方法 的 匹 
配 性 ,但 最 重要 的 是 要 使 数据 能 有 效 地 反映 不 同形 式 测验 之 间 的 差异 信息 。 通 常 来 说 ,常用 
的 测验 等 值 的 设计 有 以 下 三 种 ,如 表 6- 2 所 示 。 


表 6-2 测验 等 值 的 设计 


1. 单 组 设计 
测验 
样本 
xX y 
p 
2. 随机 等 组 设计 
测验 
样本 
x Y 
pi v 
be v 
3. 锚 测 验 一 非 等 组 设计 
测验 
样本 
x v Y 
pi ~ Vv 


n ~ ~ 


109 


口 


ia 
mn ee Hs 心理 测量 Eee 


1. 单 组 设计 

单 组 设计 是 把 要 等 值 的 两 个 或 多 个 不 同形 式 测验 同时 向 同一 被 试 组 施 测 , 然 后 把 同一 
被 试 组 在 不 同形 式 测验 上 的 得 分 进行 等 值 。 在 这 种 设计 中 ,测验 分 数 间 的 主要 差异 来 自 测 
验 的 难度 。 因 而 ,从 理论 上 来 说 ,这 种 设计 既 简单 又 无 抽样 误差 ,但 该 设计 也 会 产生 一 些 其 
他 的 不 利 影响 ,如 练习 效应 疲劳 .厌倦 等 。 

2. 随机 等 组 设计 

随机 等 组 设计 是 从 同一 总 体 中 随机 抽取 多 组 被 试 样 本 ,并 且 多 组 被 试 样本 在 心理 特质 
上 的 分 布 是 相同 或 者 相近 的 。 然 后 ,让 抽取 出 来 的 多 组 被 试 样本 分 别 随 机 接受 不 同 的 某 一 
个 测验 ,以 此 来 估计 多 个 形式 测验 间 的 等 值 关系 。 该 设计 克服 了 练习 效应 ,疲劳 .厌倦 等 因 
素 的 影响 。 但 是 ,该 设计 的 假设 前 提 是 多 组 被 试 样本 的 总 体 分 布 是 相同 的 。 因 为 多 组 被 试 
样本 是 从 同一 总 体 中 抽取 出 来 的 ,所 以 如 果 不 考虑 抽样 误差 的 影响 ,那么 这 一 假设 是 比较 容 
易 得 到 满足 的 。 

3. 锚 测 验 一 非 等 组 设计 

在 实际 工作 中 ,有 可 能 会 出 现 这 样 的 情况 , 既 不 可 能 采集 同一 被 试 组 对 其 施 测 多 个 不 同 
形式 的 测验 ,也 不 可 能 获得 多 组 总 体 分 布 相同 的 被 试 样本 来 分 别 施 测 多 个 不 同形 式 的 测验 。 
在 这 种 情况 下 ,只 能 采取 锚 测验 一 非 等 组 设计 。 该 设计 是 在 测验 编制 时 另外 编制 一 组 题 ,这 
些 题目 称 为 共同 题 , 也 称 为 锚 题 (anchor item) 。 在 收集 数据 时 , 锚 题 同时 施 测 于 所 有 的 被 试 
样本 。 虽 然 多 组 被 试 样本 总 体 分 布 不 同 , 但 是 由 于 施用 了 一 组 共同 题 ,因此 多 组 被 试 样本 间 
心理 特质 的 差异 就 可 以 被 定量 描写 ,从 而 将 不 同形 式 测验 的 等 值 关 系 估 计 出 来 。 

在 实际 工作 中 , 锚 题 既 可 以 与 原 测 验 题目 混合 组 成 一 份 测验 进行 施 测 ,也 可 以 独立 组 成 
测验 单独 施 测 ,前 者 称 为 “内 锚 ”, 后 者 称 为 “外 锚 ”。 无 论 锚 题 在 测验 内 还 是 在 测验 外 , 锚 题 
部 分 都 应 该 是 原 测验 的 一 个 "平行 减 缩 本 ”, 还 要 保证 一 定 的 题 量 , 和 否则 ,采用 锚 测 验 一 非 等 
组 设计 所 进行 的 等 值 是 不 可 靠 的 。 

(五 ) 测验 等 值 的 方法 

测验 等 值 的 基本 方法 包括 线性 等 值 和 等 百 分 位 等 值 。 

1. 线性 等 值 

线性 等 值 的 基本 原理 是 : 有 两 个 分 数 ,一 个 在 测验 X 上 , 另 一 个 在 测验 Y 上 ,如 果 它 们 
的 标准 分 数 相等 ,那么 这 两 个 分 数 就 被 认为 是 等 值 的 。 根 据 线性 等 值 的 原理 ,如 果 测 验 分 数 
X 等 值 于 测验 分 数 了 ,那么 就 有 以 下 两 式 成 立 , 即 

2 (6-1) 
Y=AX+B (6-2) 


公式 (6 - 1) 表 示 两 个 等 值 测验 的 标准 分 数 相等 , 即 Zx = Zy. 在 公式 (6- 29 A=; 


B=Y 一 AX, 这 里 的 A 和 B 称 为 等 值 常数 。 

如 果 能 求 出 等 值 常数 A 与 B. 那 么 对 于 测验 XX 的 任 一 分 数 均 可 利用 公式 (6 - 2) 求 得 与 
之 等 值 的 了 分数。 在 线性 等 值 中 .两 测验 的 等 值 关系 为 一 条 直线 ,A 是 直线 的 斜率 ,B 是 直 
线 的 截 距 。 所 有 线性 等 值 的 最 终 形式 都 是 公式 (6 -2) ,只 是 对 于 不 同 测验 等 值 的 设计 ,其 A 
与 B 的 求法 不 同 而 已 。 
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2. 等 百 分 位 等 值 

等 百 分 位 等 值 的 基本 原理 是 : 有 两 个 分 数 ,一 个 在 测验 X 上 , 另 一 个 在 测验 了 上 ,如 果 它 
们 的 百 分 等 级 相同 ,那么 这 两 个 分 数 就 被 认为 是 等 值 的 。 根 据 等 百 分 位 等 值 的 原理 ,如 果 要 寻 
找 与 X 分 数 等 值 的 了 分 数 ,那么 只 要 找到 与 X 分 数 有 相同 百 分 等 级 的 站 分数, 就 可 以 了 。 对 
于 测验 X 的 每 一 个 分 数 , 可 根据 下 式 求 出 在 X 测验 分 数 分 布 中 与 其 相对 应 的 百 分 等 级 PR 。 
F, +2 WX 
PR= 

在 公式 (6 - 3) 中 ,已 表示 小 于 工 , 的 各 组 次 数 的 和 (累积 次 数 );L, 表示 该 分 数 (X 测验 
分 数 ) 所 在 组 的 精确 下 限 ;/ 表示 该 分 数 (X 测验 分 数 ) 所 在 组 的 频数 ;i 表示 组 距 ;NN 表示 总 
次 数 。 

依据 公式 (6 - 3) ,我 们 可 以 求 出 X 测验 分 数 对 应 的 百 分 等 级 PR ,再 利用 下 式 就 可 以 求 
出 相同 百 分 等 级 PR 对 应 的 等 值 分 数 Y, 即 X 测验 分 数 对 应 的 等 值 分 数 了 。 

PRY, 

4,100 


X100 (6-3) 


XN=F; 


Y=Ty Xi (6-4) 


在 公式 (6 -4) 中 ,Y 表 示 与 X 测验 分 数 对 应 的 等 值 分 数 ,其 他 表示 符号 同 公式 (6 -3)。 
但 需要 注意 的 是 ,公式 (6 -4) 是 基于 YY 测验 分 数 分 布 的 。 

除 上 述 方法 外 ,等 百 分 位 等 值 关 系 的 寻找 ,也 可 以 通过 将 两 测验 的 累积 百 分 位 曲线 描绘 
在 同一 个 直角 坐标 系 中 获得 ,这 种 方法 称 为 作 图 法 ,其 示意 图 如 图 6-2 所 示 。 


ba 下 % Y, 分 数 
图 6-2 等 百 分 位 等 值 示意 图 


在 图 6- 2 中 ,Xi 5Y, X, SY. 就 是 成 对 的 等 百 分 位 等 值 分 数 。 若 根据 图 6- 2 需要 
得 到 比较 精确 的 结果 , 则 可 以 应 用 上 述 公式 来 求 取 与 X 测验 分 数 相对 应 的 等 值 分 数 了 。 


第 四 节 ”测验 解释 标准 化 


心理 测验 的 目的 不 仅仅 是 为 了 得 到 一 个 分 数 ,更 重要 的 是 弄 清楚 该 分 数 能 提供 给 我 们 
有 关于 被 试 的 哪些 信息 ,这 就 需要 我 们 对 测验 分 数 进行 有 效 解释 。 施 测 者 在 对 一 个 测验 分 
数 进行 解释 时 ,应 该 做 到 以 下 三 点 : 一 是 要 做 到 对 具体 测验 有 十 分 清楚 的 了 解 ,包括 其 常 
模 , 信 度 、 效 度 等 ;二 是 对 受 测 者 的 情况 要 有 所 了 解 , 如 受 测 者 的 文化 程度 、 职 业 等 ;三 是 需要 
结合 当时 的 具体 情况 进行 合理 解释 。 同 一 个 分 数 可 能 是 由 不 同 的 原因 造成 的 ,合格 的 施 测 
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者 会 结合 以 上 三 个 方面 的 因素 ,对 分 数 做 出 具体 的 解释 。 
测验 分 数 的 解释 主要 涉及 两 个 方面 的 问题 : 一 是 对 测验 分 数 进行 解释 时 应 遵循 的 基本 
原则 ;二 是 如 何 将 测验 分 数 的 意义 告诉 受 测 者 。 


一 、 对 测验 分 数 进行 解释 时 应 遵循 的 基本 原则 


总 的 来 说 ,在 对 心理 测验 分 数 进行 解释 时 ,我 们 应 该 遵循 以 下 几 个 基本 原则 。 

(一 ) 主 试 应 充分 了 解 测验 的 性 质 与 功能 

测验 使 用 者 必须 了 解 心理 测验 的 基本 功能 ,应 根据 心理 测验 的 特点 进行 分 析 , 具 备 使 用 
心理 测验 的 专业 能 力 ,人 掌握 心理 测验 的 性 质 与 限制 。 任 何 一 个 测验 都 有 其 编制 的 特定 目的 
和 独特 功能 ,使 用 者 在 解释 之 前 必须 从 其 编制 手册 中 ,详细 了 解 编制 过 程 的 标准 化 及 测验 的 
信和 度 、 效 度 、 常 模 等 是 否 适当 。 更 重要 的 是 ,应 该 知道 测验 能 够 测 什 么 ,测验 不 能 够 测 什么 以 
及 测验 分 数 在 使 用 上 有 何 限制 等 。 有 时 尽管 两 种 测验 的 类 型 相同 ,但 其 功能 却 有 可 能 不 同 。 
例如 ,同样 是 智力 测验 的 韦 氏 智力 量 表 和 瑞 文 推理 测验 ,两 者 的 内 部 结构 却 有 很 大 的 不 同 ， 
所 能 发 挥 的 作用 也 有 所 区 别 。 

(二 ) 对 测验 分 数 的 原因 的 解释 要 慎重 ,谨防 片面 极端 

不 能 把 测验 分 数 “绝对 化 ”更 不 能 仅仅 根据 一 次 测验 结果 轻易 下 结论 。 每 个 被 试 的 测 
验 分 数 都 是 被 试 的 遗传 特征 、 被 试 测验 前 的 学 习 与 经 验 以 及 测验 时 的 情境 的 函数 。 这 三 个 
方面 对 测验 分 数 都 有 影响 。 所 以 ,我 们 应 把 测验 分 数 看 成 对 受 测 者 目前 状况 的 测量 ,至 于 他 
是 如 何 达到 这 一 状况 的 , 则 受 许多 因素 的 影响 。 

为 了 能 对 测验 分 数 作 出 有 意义 的 解释 ,必须 将 个 人 在 测验 前 的 经 历 或 者 背景 等 因素 考 
虑 在 内 。 另 外 ,测验 时 的 情境 也 是 一 个 需要 考虑 的 因素 。 比 如 ,一 个 学 生 可 能 因为 身体 、 情 
绪 等 原因 产生 测验 焦虑 。 如 果 这 些 因素 控制 不 好 ,那么 就 会 使 测验 分 数 受到 影响 。 在 这 种 
情况 下 ,应 当 找 出 造成 测验 分 数 反常 的 原因 ,而 不 要 单纯 以 测验 分 数 下 结论 。 

(三 ) 必须 充分 估计 测验 的 常 模 , 信 和 度 、 效 度 等 资料 的 局 限 性 

为 了 对 测验 分 数 作出 确切 的 解释 ,只 有 常 模 资 料 是 不 够 的 ,还 必须 有 信和 度 、 效 度 等 资料 。 
如 果 常 模 资料 没有 信 度 、 效 度 等 证 据 , 只 告诉 我 们 被 试 在 一 个 常 模 团 体 中 的 相对 等 级 ,那么 
就 不 能 作出 恰当 的 预测 或 更 多 的 解释 。 在 解释 分 数 时 ,人 们 最 常 犯 的 错误 就 是 仅 根据 测验 
标题 和 常 模 去 推论 测验 分 数 的 意义 。 当 然 , 就 算 有 了 信和 度 、 效 度 等 资料 ,在 对 测验 分 数 作 解 
释 时 也 同样 要 慎重 。 这 是 因为 ,测验 信和 度 、 效 度 等 资料 的 拓 广 能 力 是 有 限 的 ,不 同 的 常 模 团 
体 和 不 同 的 施 测 条 件 , 往 往 会 得 到 不 同 的 结果 。 如 此 看 来 ,在 解释 分 数 时 ,我 们 一 定 要 依据 
最 相近 的 团体 和 最 匹配 的 情境 来 获得 资料 。 

(四 ) 解释 分 数 应 参考 其 他 资料 

测验 分 数 不 是 了 解 被 试 的 唯一 资料 ,为 正确 了 解 其 心理 特质 ,还 需要 参考 其 他 有 关 资 
料 。 只 赁 被 试 的 单一 测验 分 数 去 解释 其 心理 状态 ,容易 作出 错误 的 解释 。 因 此 ,在 对 测验 分 
数 进行 解释 时 应 尽 可 能 地 参考 其 他 资料 ,如 教育 经 验 .文化 背景 .面谈 内 容 , 习 惯 、 态 度 、 兴 
趣 动机、 健康 状况 、 语 文 程度 以 及 其 他 测验 的 资料 。 只 有 这 样 , 对 测验 分 数 的 解释 才能 更 加 
深入 且 客 观 。 

(五 ) 对 测验 分 数 应 以 “一 段 分 数 ” 来 解释 ,而 不 是 以 “特定 数值 "来 解释 

由 于 每 一 个 测验 均 会 受到 测量 误差 的 影响 ,因此 在 解释 测验 分 数 时 也 应 该 考虑 到 测量 
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误差 的 存在 。 信 和 度 高 低 与 测量 误差 的 大 小 有 关 。 信 度 越 高 ,测量 误差 越 小 。 但 是 ,测量 误差 
是 永远 不 可 能 消除 的 ,因此 应 该 把 测验 分 数 视 为 在 某 个 数量 区 间 上 的 取 值 。 对 测验 分 数 应 
该 以 “一 段 分 数 " 来 解释 ,而 不 是 以 “特定 数值 "来 解释 。 倘 车 在 实际 工作 中 使 用 某 个 确定 的 
分 数 来 表述 , 则 应 该 说 明 这 个 分 数 并 不 意味 着 是 其 测量 的 精确 值 ,而 只 是 对 真实 分 数 的 一 个 
大 体 的 估计 值 。 

(六 ) 对 来 自 不 同 测验 的 分 数 不 能 直接 加 以 比较 

由 于 所 包含 的 具体 内 容 不 同 ,以 及 标准 化 样本 的 组 成 不 同 , 因 此 对 来 自 不 同 测验 的 分 数 
不 能 直接 加 以 比较 。 通 常 来 说 ,为 了 使 来 自 两 个 不 同 测验 的 分 数 具 有 可 比 性 ,必须 将 两 者 放 
到 统一 的 量 纲 上 。 当 两 个 不 同形 式 测验 内 容 取 样 的 范围 相同 或 相近 时 ,人 们 常用 测验 等 值 
技术 来 将 两 个 不 同形 式 测验 的 分 数 进行 等 值 , 有 关 这 一 块 内 容 , 可 参考 本 章 上 一 节 。 


二 、 如 何 将 测验 分 数 的 意义 告诉 受 测 者 


如 何 向 受 测 者 以 及 与 受 测 者 有 关 的 人 员 ( 如 家 长 .教师 等 ) 报 告 测 验 分 数 ,使 他 们 更 好 地 
理解 测验 分 数 的 意义 ,是 一 件 非常 重要 的 事 。 通 常 来 说 ,在 报告 测验 分 数 时 应 遵循 以 下 
原则 。 

第 一 ,使 用 受 测 者 所 能 理解 的 言语 。 测 验 中 有 许多 专业 词汇 ,这 些 词汇 意义 通常 是 受 测 
者 所 不 能 理解 的 。 因 此 ,在 向 受 测 者 进行 解释 时 ,应 尽量 避免 使 用 专业 词汇 和 专门 术语 , 必 
要 时 可 以 询问 受 测 者 是 否 能 听 得 懂 。 

第 二 ,要 保证 受 测 者 知道 这 个 测验 测量 了 什么 。 这 里 并 不 需要 作 详 细 的 技术 性 的 解释 ， 
只 需要 被 试 能 够 理解 测验 在 实际 生活 中 所 起 的 作用 即 可 。 

第 三 ,要 让 受 测 者 知道 这 个 测验 分 数 的 比较 对 象 。 如 果 测 验 分 数 是 以 常 模 为 参照 ,那么 
就 需要 使 受 测 者 知道 他 们 的 测验 分 数 的 比较 对 象 , 即 他 们 是 在 与 什么 样 的 团体 进行 比较 。 

第 四 ,要 使 受 测 者 认识 到 测验 分 数 只 是 一 个 估计 值 。 由 于 测验 测量 的 信 效 度 总 有 局 限 ， 
因此 分 数 可 能 有 误差 ,而 且 对 于 一 个 团体 有 效 的 测验 ,不 一 定 对 每 个 个 体 都 同样 有 效 。 如 此 
看 来 ,测验 分 数 只 是 一 个 估计 值 。 但 是 ,也 不 能 让 受 测 者 感到 测验 分 数 是 毫 不 足 信 的 。 

第 五 ,要 使 受 测 者 知道 如 何 运 用 他 的 测验 分 数 。 当 测验 用 于 人 员 选 拔 和 安置 时 ,这 点 显 
得 尤为 重要 。 要 向 受 测 者 讲 清楚 测验 分 数 在 作 决 定 过 程 中 起 什么 作用 ,是 完全 由 测验 分 数 
取舍 ,还 是 只 把 测验 分 数 作为 参考 ,有 没有 规定 最 低 分 数 线 , 等 等 。 

第 六 ,要 考虑 测验 分 数 将 给 受 测 者 带 来 什么 影响 。 因 为 测验 分 数 的 解释 会 影响 受 测 者 
的 自我 认 知 ,所 以 在 对 测验 分 数 进行 解释 时 ,要 把 对 测验 分 数 意义 的 解释 和 必要 的 咨询 工作 
结合 起 来 ,以 免 使 受 测 者 因 测 验 分 数 不 理 想 而 产生 消极 的 心理 。 

第 七 ,测验 分 数 应 向 无 关 人 员 保密 。 受 测 者 的 测验 分 数 不 应 让 其 他 无 关 人 员 知 道 , 以 免 
对 受 测 者 造成 不 良 的 影响 。 因 此 ,测验 分 数 的 报告 宜 采用 个 人 解释 ,不 宜 采 用 团体 解释 或 公 
告 通 知 的 方式 进行 。 

第 八 , 对 低 分 者 或 不 理想 分 数 者 的 解释 应 谨慎 小 心 。 在 测验 上 获得 较 低 分 数 或 者 不 理 
想 分 数 的 受 测 者 易 产生 消极 的 心理 。 因 此 .在 对 这 些 人 报告 测验 分 数 时 ,态度 要 诚 奶 ,措辞 
要 委婉 ,避免 作 直 截 了 当 的 解释 。 

第 九 ,报告 测验 分 数 时 应 设法 了 解 受 测 者 的 心理 感受 ,并 采用 适当 的 措施 加 以 引导 。 报 
告 测验 分 数 时 , 宜 先 让 受 测 者 充分 表达 测验 时 的 心理 感受 ,以 便 了 解 他 的 测验 分 数 是 否 代表 
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e 心理 测量 


其 在 最 佳 的 情况 下 所 作 的 反应 。 同 样 地 ,在 解释 完 测 验 分 数 后 宜 鼓励 受 测 者 表达 对 测验 结 
果 的 感受 ,如 发 现 受 测 者 对 测验 分 数 有 误解 或 者 不 良 的 态度 ,应 立即 配 以 咨询 ,或 予以 适当 
的 引导 ,以 免 给 受 测 者 造成 不 良 的 影响 。 


为 了 让 心理 测验 在 心理 实践 中 发 挥 出 更 佳 的 效果 ,必须 编制 出 高 质量 的 符合 要 求 的 测 
验 。 实 施 测验 是 为 了 获得 被 试 在 标准 环境 中 有 代表 性 的 行为 。 因 此 ,我 们 在 测验 实施 时 ,应 
尽 可 能 地 考虑 哪些 因素 会 影响 被 试 作 答 反 应 ,并 对 其 加 以 控制 。 评 分 是 整个 测验 施 测 过 程 
的 最 后 一 步 ,也 是 为 进行 测验 结果 解释 做 好 准备 的 关键 环节 。 每 份 测验 都 有 其 各 自 的 分 数 
解释 方法 ,对 于 测验 分 数 的 解释 我 们 需 严 格 按照 测验 指导 手册 上 的 规定 来 进行 。 此 外 ,本 章 
还 介绍 了 有 关 测 验 等 值 方面 的 知识 。 测 验 等 值 是 实现 测验 公平 性 的 保证 ,其 在 使 用 分 数 、 建 
设 题库 ,编制 测验 等 方面 都 有 着 重要 的 应 用 。 学 习 本 章 有 助 于 理解 测验 编制 标准 化 ,测验 实 
施 标 准 化 ,测验 评分 标准 化 和 测验 解释 标准 化 的 相关 内 容 及 事项 。 本 章 的 重点 是 理解 编制 
一 个 标准 化 测验 的 8 个 步骤 ,难点 是 掌握 对 测验 分 数 进 行 转换 的 测验 等 值 技术 。 本 章 的 中 
心 概念 是 “标准 化 ”。 


一 、 选 择 题 ( 不 定 项 选择 题 , 至 少 有 一 个 选项 是 正确 的 ) 
1. 施 测 前 的 准备 工作 是 保证 测试 顺利 完成 测验 实施 标准 化 的 必要 环节 ,主要 包括 
( ) 


A. 准备 好 测验 材料 B. 熟练 掌握 施 测 程序 
C. 预知 被 试 测验 结果 D. 熟悉 测验 指导 语 
2. 在 对 心理 测验 分 数 进行 解释 时 ,应 该 注意 ¢ 3 
A. 应 根据 心理 测验 的 特点 进行 分 析 
B. 不 能 把 测验 分 数 绝对 化 
C. 需要 有 常 模 、 信 和 度 和 效 度 等 资料 
D. 对 于 来 自 不 同 测验 的 分 数 不 能 直接 加 以 比较 
3. 不 能 把 测验 分 数 ( ) ,更 不 能 仅仅 根据 一 次 测验 结果 轻易 下 结论 。 € 3 


A. 本 土 化 B. 固定 化 C. 绝对 化 D. 形象 化 

4. 解释 测验 分 数 时 不 必 考 虑 测验 的 哪 方面 资料 ? ¢ j 
AL HR B. 信 度 
C. 效 度 D. 适用 范围 


5. 某 心理 咨询 师 计 划 将 自己 曾 咨询 过 的 案例 编 到 教科 书 中 ,在 编 书 时 ,该 心理 咨询 师 
i € ) 
A. 首先 征 得 求助 者 本 人 同意 
B. 忠实 于 求助 者 的 原始 信息 
C. 对 案例 记录 进行 技术 处 理 
D. 隐 去 可 辨认 求助 者 的 信息 
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6. 以 下 关于 测验 分 数 的 说 法 中 ,不 正确 的 是 ¢ 9 
A. 测验 分 数 是 被 试 的 遗传 特征 的 函数 
B. 测验 分 数 是 被 试 测验 前 的 学 习 与 经 验 的 函数 
C. 测验 分 数 是 测验 时 的 情境 的 函数 
D. 测验 分 数 是 测验 材料 的 函数 


7.( ”) 会 提高 智力 测验 、 成 就 测验 和 能 力 倾向 测验 的 成 绩 。 ¢ J 
A. 过 高 的 焦虑 B. 适度 的 焦虑 
C. 一 点 儿 焦虑 也 没有 D. 过 低 的 焦虑 

8. 测验 工作 者 对 待 心理 测验 的 职业 道德 包括 é $ 
A. 测验 的 保密 B. 测验 的 控制 使 用 
C. 测验 中 个 人 隐私 的 保护 D. 对 测验 特别 熟悉 

9. 受 应 试 动机 影响 不 太 大 的 测验 是 € 3 
A. 态度 测验 B. 智力 测验 
C. 能 力 测验 D. 投射 测验 

10. 选择 测验 要 注意 所 选 测验 必须 ¢ 3 
A. 适合 主 试 要 求 B. 适合 测验 目的 
C. 符合 测验 质量 要 求 D. 适合 被 试 情况 

11. 测验 实施 标准 化 需要 注意 的 方面 包括 è J 
A. 主 试 的 资格 B. 测验 的 选择 
C. 测验 的 准备 D. 影响 被 试 作答 反应 的 因素 

12. 在 测验 实施 中 ,影响 被 试 作答 反应 的 因素 包括 é » 
A. 经 验 技巧 B. 练习 效应 
C. 应 试 动机 D. 反应 定 势 

13. 测验 等 值 的 条 件 包括 € 3 
A. 同 质 性 B. 公平 性 
C. 样本 不 变性 D. 对 称 性 

14. 常用 的 测验 等 值 的 设计 包括 ( ) 
A. 单 组 设计 B. 随机 等 组 设计 
C. 非 随 机 等 组 设计 D. 锚 测验 一 非 等 组 设计 

15. 测验 等 值 的 基本 方法 包括 ( ) 
A. 线性 等 值 B. 非 线性 等 值 
C. 等 百 分 位 等 值 D. 非 等 百 分 位 等 值 

二 、 简 答题 


1. 简 述 心理 测验 编制 的 一 般 程 序 。 
2. 简 述 对 测验 分 数 进行 解释 时 应 遵循 的 基本 原则 。 
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第 七 章 智力 测验 


智力 测验 ,从 字面 上 可 以 看 出 它 是 测 智力 的 。 但 智力 是 什么 呢 ? 心理 学 家 至 今 还 尚未 
完全 达成 一 致意 见 ,不 同学 者 给 出 了 不 同 的 智力 定义 。 例 如 , 推 重 (L. M. Terman) 把 智力 定 
义 为 抽象 思维 能 力 , 而 桑 代 克 (E. L. Thorndike) 则 认为 智力 是 从 真理 和 事实 的 观点 出 发 , 靠 
正确 反应 所 获得 的 能 力 。 这 些 智力 定义 虽然 各 有 不 同 ,但 是 大 多 数 定义 都 承认 智力 是 认 知 
过 程 中 表现 出 来 的 各 种 能 力 的 组 合 , 它 们 按 不 同 的 方式 组 成 了 一 个 智力 系统 。 那 么 ,这 个 智 
力 系统 的 结构 是 什么 样 的 呢 ? 对 此 ,一些 心 理学 家 提出 了 某 些 理论 来 加 以 回答 。 


第 一 节 ”智力 测验 概述 


智力 通俗 地 说 就 是 人 的 聪明 程度 ,智力 水 平 越 高 ,说明 人 越 聪 明 。 那 么 ,我 们 如 何 知 
道 一 个 人 是 否 比 别人 更 聪明 呢 ? 大 部 分 人 是 通过 观察 其 在 日 常 活动 中 的 表现 来 作出 判断 
的 。 例 如 ,通过 观察 发 现 有 些 人 较 容 易 遗 忘 , 只 擅 于 做 一 些 简单 的 事情 ,而 另 一 些 人 却 过 
目 不 忘 ,能 解决 复杂 的 问题 ,从 而 得 出 后 者 比 前 者 更 聪明 的 结论 。 这 种 日 常 观察 确实 对 了 
解 一 个 人 是 否 聪明 有 一 定 的 帮助 ,但 存在 较 大 的 局 限 性 : 首先 ,观察 的 对 象 有 限 ,我 们 只 
能 对 周围 的 少数 人 进行 观察 ;其 次 ,被 观察 对 象 因 受 社会 角色 或 社会 情境 影响 ,会 采取 一 
些 自我 扮演 策略 ,在 不 同情 境 和 不 同人 面前 可 能 表现 出 不 同 的 行为 ,导致 有 些 人 对 其 产生 
聪明 的 判断 ,而 另 一 些 人 却 认为 其 不 够 聪明 ;最 后 ,观察 容易 受 观察 者 主观 经 验 的 影响 ,不 
同 观察 者 因 经 验 不 同 ,观察 的 侧重 点 不 同 , 从 而 对 同一 个 人 可 能 得 出 不 同 的 结论 。 因 此 ， 
我 们 有 必要 采取 科学 的 手段 ,运用 实验 或 测量 的 方法 来 测量 智力 ,以 尽力 消除 日 常 观察 的 
局 限 。 

19 世纪 中 叶 , 达 尔 文 的 进化 论 思想 激发 了 智力 的 科学 研究 和 系统 测量 。 达 尔 文 的 表 
兄弟 高 尔 顿 (F。Galton) ,是 最 早 对 智力 进行 系统 性 研究 的 人 。 他 认为 ,人 的 最 基本 的 智 
力 差异 是 感觉 辨别 力 的 差异 。 根 据 这 种 设想 ,他 采用 实验 的 方法 来 测量 智力 ,如 测量 人 们 
对 声音 的 反应 时 命名 颜色 的 速度 、 手 的 运动 敏感 性 与 准确 性 等 。 高 尔 顿 的 观点 受到 了 法 
国 心理 学 家 比 内 (A. Binet) 等 人 在 内 的 一 些 心理 学 家 的 批评 。 比 内 认为 ,感觉 辨别 力 只 是 
智力 中 较 低级 的 因素 ,智力 是 由 多 种 能 力 ,特别 是 判断 ,理解 和 推理 等 高 级 能 力 组 成 的 ,这 
些 能 力 不 宜 采用 实验 的 方法 来 进行 测量 。 受 法 国教 育 部 的 委托 ,为 鉴别 出 智力 落后 的 儿 
童 以 便 对 其 实施 特殊 教育 , 比 内 及 其 助手 西蒙 (T. Simon) ,根据 他 们 对 智力 的 看 法 ,于 
1905 年 编制 了 世界 上 第 一 个 正式 的 智力 测验 工具 , 即 比 内 一 西蒙 智力 量 表 。 此 后 ,各 种 
各 样 的 智力 测验 迅速 发 展 起 来 。 


一 、 智 商 及 其 意义 
智力 测验 的 最 根本 目的 是 对 被 试 的 智力 水 平 高 低 进行 量化 ,从 而 鉴别 出 个 体 智力 的 
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差异 。 但 是 ,如 何 才能 很 好 地 把 人 的 智力 水 平 加 以 量化 呢 ? 在 实施 测验 的 条 件 下 ,一 个 直 
观 的 想法 ,就 是 把 答对 或 者 通过 了 的 测验 项 目 个 数 加 以 总 计 , 用 测验 总 分 来 反映 被 试 的 智 
力 水 平 。 但 是 ,这 种 表示 方法 很 难 判断 一 个 被 试 的 智力 到 底 发 展 到 了 何 种 程度 。 例 如 ,被 
试 A 通 过 了 10 题 , 被 坛 B 通 过 了 13 题 , 可 以 判断 被 试 B 在 该 测验 上 的 智力 得 分 较 被 试 A 
高 ,但 无 法 认定 被 试 B 的 智力 到 底 高 到 什么 水 平 。 智 力 测 验 项 目的 难度 对 不 同年 龄 的 儿 
童 来 说 并 不 一 样 ,比如 ,有 的 项 目 8 岁 儿 童 大 部 分 能 通过 ,但 6 岁 儿 童 却 很 大 一 部 分 都 通 
不 过 ,因为 儿童 智力 水 平 随 年 龄 增长 而 逐渐 提高 。 比 内 对 此 深 有 认识 ,他 通过 实证 研究 ， 
找到 了 可 以 代表 不 同年 龄 水 平 的 智力 测验 项 目 。 具 体 办 法 是 , 当 一 个 项 目 为 某 一 年 龄 被 
试 的 80% 一 90% 所 能 通过 ,而 长 一 岁 的 儿童 则 几乎 全 能 通过 ,小 一 岁 的 儿童 却 很 难 通过 
时 ,这 样 的 项 目 , 比 内 就 用 它 来 作为 这 一 年 龄 儿童 智力 水 平 的 实际 代表 。 这 也 就 是 说 , 比 
内 在 自己 的 研究 中 创建 了 * 常 模 ” 的 思想 ,提出 了 * 智 力 年 龄 *( 心 理 年 龄 ) 的 概念 。 比 内 的 
这 些 工作 在 心理 测量 发 展 史上 具有 重要 意义 。 这 样 , 当 智力 测验 中 的 项 目 通过 实证 调查 ， 
能 够 确认 其 代表 一 定年 龄 儿童 的 智力 发 展 水 平时 ,就 可 以 根据 被 试 通过 了 什么 年 龄 水 平 
的 项 目 , 计 算 其 心理 年 龄 得 分 ,从 而 确定 他 的 智力 发 展 到 了 何 种 水 平 。 所 以 ,可 以 说 , 比 内 
开辟 了 将 智力 水 平 数量 化 的 一 种 科学 途径 。 

但 是 ,人 们 在 实践 中 发 现 还 有 更 深入 的 问题 需要 解决 。 当 一 个 8 岁 儿 童 和 一 个 9 岁 
儿童 ,都 同样 地 达到 了 10 岁 儿 童 的 智力 水 平时 ,这 两 个 儿童 的 聪明 程度 是 否 一 样 呢 ? 当 
然 ,实际 生活 经 验 告 诉 我 们 ,这 一 8 岁 儿 童 比 那 一 9 岁 儿 童 显 然 要 更 聪明 。 但 是 ,用 什么 
样 的 量化 方法 能 将 两 者 的 聪明 程度 表示 出 来 呢 ? 德国 心理 学 家 斯 腾 (W. Stern) 为 此 就 进 
一 步 提出 ,应 将 被 试 的 智力 年 龄 与 他 的 实际 年 龄 相 比 较 : 若 智力 年 龄 比 实际 年 龄 大 (两 者 
的 比值 大 于 1), 则 说 明 其 智力 水 平 较 高 ; 若 智 力 年 龄 与 实际 年 龄 一 样 ( 两 者 的 比值 等 于 
1), 则 说 明 其 智力 水 平一 般 ; 若 智力 年 龄 比 实际 年 龄 小 (两 者 的 比值 小 于 1), 则 说 明 其 智 
力 水 平 落后 。 也 就 是 说 ,斯 腾 提 出 了 以 后 广 为 流 传 的 “智力 商 数 ”( 比 率 智 商 ) ,这 一 概念 简 
称 “ 智 商 "。 但 是 ,把 求 智商 这 一 办 法 实际 引入 智力 测验 实践 过 程 中 的 , 却 是 美国 心理 学 家 
Hek. 

比率 智商 虽然 长 期 广 为 流 传 ,但 是 并 非 是 最 科学 的 把 智力 水 平 加 以 量化 的 办 法 。 现 在 ， 
科学 界 普遍 承认 , 韦 克 斯 勤 (D. Wechsler) 提 出 的 求 离 差 智商 的 办 法 ,是 将 智力 水 平 量化 的 更 
好 办 法 。 下 面 我 们 对 这 些 量 化 方法 作 具 体 讨论 。 

(一 ) 比率 智商 

比 内 一 西蒙 智力 量 表 编 制 成 功 后 .受到 世界 各 国 的 关注 ,一 些 国家 的 心理 学 家 不 仅 对 其 
进行 了 介绍 ,而且 还 有 不 少 国家 的 心理 工作 者 对 其 进行 了 修订 以 适合 本 国 的 国情 。 在 所 有 
这 些 修订 本 中 ,最 负 盛 名 的 是 1916 年 美国 推 孟 等 人 的 修订 本 , 即 斯 坦 福 一 比 内 智力 量 表 。 
该 量 表 最 早 采用 智商 来 表示 被 试 智力 的 相对 水 平 高 低 。 因 为 该 智商 是 采用 心理 年 龄 与 实际 
年 龄 的 比值 进行 计算 的 ,所 以 被 称 为 比率 智商 ,其 计算 公式 为 


_MA 和 
1Q= CA x 100 m- 
在 公式 (7- 1) .MA Mental Age) 表 示 智 力 年 龄 或 心理 年 龄 ;CA(Chronological Age) 


表示 实际 年 龄 。 
比率 智商 的 提出 具有 重要 的 意义 , 它 可 以 比较 不 同年 龄 被 试 智力 水 平 的 高 低 。 例 如 ,有 
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两 个 儿童 ,其 中 一 个 3 岁 时 达到 了 4 岁 儿 童 的 智力 水 平 ; 另 一 个 5 岁 时 达到 了 6 岁 儿 童 的 智 
力 水 平 , 我 们 就 可 以 将 他 们 的 得 分 代入 公式 (7 一 1) ,得 


3 岁 儿 童 的 Q= x 100133 


5 岁 儿 童 的 1Q-2x 100=120 


由 上 可 以 看 出 ,3 岁 儿 童 的 智商 显然 高 于 5 岁 儿 童 的 智商 。 

但 是 ,比率 智商 也 存在 以 下 明显 的 缺点 : 一 是 它 不 适用 于 年 龄 较 大 的 被 试 ,因为 心理 年 
龄 不 会 随 着 实际 年 龄 的 增 大 而 无 限 增 大 ,进入 成 年 期 后 实际 年 龄 继续 增长 ,但 心理 年 龄 保持 
相对 稳定 , 若 采用 上 述 公式 进行 计算 , 则 会 发 现 人 的 IQ 越 来 越 低 ,这 与 实际 情况 不 相符 ;二 
是 智力 的 发 展 就 不 同 的 人 在 不 同时 期 来 说 ,其 发 展 速度 并 不 相同 ,因而 采用 公式 (7 - 1) 无 法 
真正 发 现 个 体 在 不 同时 期 之 间 的 差异 。 

(=) 高 差 智商 

鉴于 比率 智商 的 局 限 , 韦 克 斯 勒 最 初 在 编制 自己 的 量 表 时 ,放弃 了 心理 年 龄 的 概念 。 但 
由 于 IQ 一 词 流行 甚 广 ,家 喻 户 晓 , 于 是 他 保留 了 IQ 这 个 说 法 。 不 过 他 采用 的 IQ 已 不 再 是 
一 个 简单 的 比值 , 即 心理 年 龄 与 实际 年 龄 的 比 ,而 是 一 个 被 试 智力 测验 成 绩 跟 同年 龄 组 被 试 
平均 成 绩 比 较 而 得 到 的 相对 分 数 , 即 采 用 了 被 试 在 标准 化 样本 中 的 相对 地 位 。 因 此 ,他 放弃 
了 传统 的 比率 智商 概念 ,而 采用 了 更 为 恰当 的 离 差 智 商 概念 。 

在 韦 氏 智力 量 表 中 ,由 于 言语 量 表 、 操 作 量 表 和 总 量 表 是 由 许多 分 量 表 构 成 的 ,各 年 龄 
组 被 试 在 每 一 分 量 表 上 的 平均 得 分 不 同 ,各 分 量 表 的 原始 分 数 不 能 直接 相 加 ,不 能 直接 计算 
言语 智商 ,操作 智商 和 总 智商 ,而 必须 先 计算 各 分 量 表 的 量 表 分 , 即 标 准 二 十 分 数 Zx 。 标 准 
二 十 分 数 Zs 的 计算 公式 如 下 : 


Zw = 10+3z = 10+ 


3(X—X) 
= (7-2) 


在 公式 (7 - 2) 中 ,X 为 某 被 试 在 书 氏 智力 量 表 某 一 分 量 表 上 的 原始 分 数 ;X 为 该 被 试 所 
在 年 龄 组 在 该 分 量 表 上 的 原始 分 数 的 平均 数 ;SD 为 该 被 试 所 在 年 龄 组 在 该 分 量 表 上 的 原始 


分 数 的 标准 差 。 这 样 ,5 实际 上 就 是 < 分 数 ,而 Zi 分 数 实际 上 是 标准 分 数 的 一 种 变 


式 , 即 Zw 二 10 十 3z。 
各 分 量 表 的 Zoo 分数 求 出 来 之 后 ,将 相应 分 量 表 的 Zo 分 数 相 加 , 便 可 得 到 言语 量 表 分 、 
操作 量 表 分 和 总 量 表 分 ,再 采用 下 列 公式 计算 对 应 的 言语 智商 ,操作 智商 和 总 智商 。 


15(Y—Y) 
IQ 一 100 十 15= 一 100 十 一 S 厅 (7-3) 


在 公式 (7-3) 中 ,Y 为 某 被 试 的 言语 量 表 分 或 操作 量 表 分 或 总 量 表 分 ;Y 为 该 被 试 所 在 
年 龄 组 的 言语 量 表 分 或 操作 量 表 分 或 总 量 表 分 的 平均 数 ;SD 为 该 被 试 所 在 年 龄 组 的 言语 量 


表 分 或 操作 量 表 分 或 总 量 表 分 的 标准 差 。 这 样 , 失 之 实际 上 就 是 = 分 数 ,而 IQ, 即 离 差 知 
商 ,实际 上 也 是 标准 分 数 的 一 种 变 式 . 即 IQ 王 100 十 15z。 

值得 注意 的 是 , 韦 克 斯 勒 采用 的 IQ ,其 平均 数 为 100, 标 准 差 为 15。 而 推 震 在 1960 年 对 
斯 坦 福 一 比 内 智力 量 表 进 行 再 次 修订 时 ,也 采用 了 离 差 智商 来 表示 被 试 的 智力 水 平 ,但 他 采 
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用 的 离 差 智 商 平均 数 为 100, 标 准 差 为 16, 即 加 
16(Y—Y) 
1Q=100+16z=100+ SD (7-4) 
在 公式 (7 一 4) 中 ,各 符号 表示 的 意义 同 公式 (7 一 3)。 
由 于 不 同 智力 测验 采用 不 同 的 标准 差 计算 离 差 智商 IQ, 因 而 不 同 智力 测验 的 离 差 智商 


IQ 的 意义 也 会 有 所 不 同 。 表 7 -1 说 明了 离 差 智商 IQ 相同 ,但 标准 差 不 同 ,所 包含 的 被 试 
在 总 体 中 个 案 百分数 也 不 同 。 


表 7-1 平均 数 均 为 100 标准 差 不 同 的 正 态 分 布 中 不 同 IQ 组 的 个 案 百 分 数 (%) 


百 分 数 
IQ 
SD=12 SD=14 SD=15 SD=16 SD=18 
130 及 以 上 0.7 1.6 2.2 3.1 5.1 
120~129 4.3 6.3 6.7 7.5 8.5 
110~119 15.2 16.0 16.1 15. 8 15.4 
100~109 29.8 26.1 25.0 23.6 21.0 
90~99 29.8 26.1 25.0 23.6 21.0 
80~89 15.2 16.0 16.1 15.8 15.4 
70~79 4.3 6.3 6.7 7.5 8.5 
70 以 下 0.7 1.6 2.2 3.1 5.1 
总 it 100.0 100.0 100.0 100.0 100.0 


参考 表 7-1, 例 如 ,IQ 70 以 下 , 当 标准 差 为 12 时 ,个 案 百 分 数 为 0.7%; 当 标准 差 为 
14 时 ,个 案 百分数 为 1.6%; 当 标准 差 为 15 时 ,个 案 百分数 为 2.2%; 当 标准 差 为 16 时 ,个 案 
百分数 为 3.1% ; 当 标 准 差 为 18 时 ,个 案 百分数 为 5.1%。 如 果 以 IQ 为 70 以 下 作为 实施 特 
殊 教育 的 依据 ,那么 在 标准 差 取 值 较 低 的 情况 下 ,接受 特殊 教育 的 人 数 比 例 较 少 ,导致 一 些 
本 应 该 接受 特殊 教育 的 学 生得 不 到 特殊 教育 的 机 会 ;而 在 标准 差 取 值 较 高 的 情况 下 ,接受 特 
殊 教育 的 人 数 比 例 就 较 多 ,导致 本 不 需要 接受 特殊 教育 的 学 生 却 被 特别 地 对 待 ,浪费 国家 资 
源 。 因 此 ,在 新 编制 的 智力 测验 中 ,测验 编制 者 都 希望 采用 统一 的 标准 差 , 如 SD 二 15。 但 
是 ,目前 各 测验 编制 者 在 这 个 方面 尚未 达成 一 致 。 不 过 , 当 标 准 差 取 值 为 15 或 16 时 ,所 带 
来 的 实际 影响 差异 并 不 是 很 大 。 

一 般 研 究 表明 ,人 类 心理 特征 的 取 值 常 呈正 态 分 布 , 即 表现 为 钟 形 曲 线 。 在 这 种 分 布 
中 ,大 部 分 人 都 集中 在 曲线 的 中 部 ,曲线 两 头 人 数 相对 较 少 。 人 的 智商 也 是 如 此 ,大 部 分 人 
的 智商 处 于 中 间 水 平 , 只 有 极 少 数 人 的 智商 极端 的 高 或 极端 的 低 。 推 乔 和 万 克 斯 勤 在 正 态 
分 布 的 基础 上 进而 将 人 的 智力 划分 为 若干 等 级 ,如 表 7-2 和 表 7 一 3 所 示 。 
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表 7-2 推 孟 的 智力 等 级 分 布 表 


心理 测量 ESSSSSSSSSSSSSSSSG 


智 商 


智力 等 级 


人 和 群 中 的 理论 分 布 比 率 (%) 


2140 
120~139 
110~119 
90~109 
80~89 
70~79 
50~69 
25~49 


<24 


智商 


表 7-3 韦 克 斯 勒 的 智力 等 级 分 布 表 
智力 等 级 


1.6 
11.3 
18.1 
46.5 
14.5 

5.6 


人 群 中 的 理论 分 布 比率 (%) 


2130 
120~129 
110~119 
90~109 
80~89 
70~79 
<69 


二 、 智 力 测验 理论 


极 超常 
超常 
高 于 平常 
平常 
低 于 平常 
边界 
智力 缺陷 


(一 ) 基于 因素 分 析 的 智力 测验 理论 
早期 的 智力 测验 理论 关注 智力 是 由 哪些 要 素 构成 的 .是 单一 的 一 般 因素 还 是 由 系列 的 
特殊 因素 组 成 的 ,这些 要 素 之 间 的 关系 如 何 ,等 等 。 早 期 的 智力 测验 理论 大 多 是 基于 因素 分 
析 的 智力 测验 理论 ,包括 智力 二 因素 论 、 智 力 群 因素 论 .智力 三 维 结构 模型 .智力 三 层次 结构 


论 和 智力 层次 论 等 。 
1. 智力 二 因素 论 


1904 年 ,英国 心理 学 家 斯 皮尔 曼 (C. E. Spearman) 首 先 发 现 不 同 的 能 力 测验 之 间 存 在 
普遍 的 正 相 关 , 即 在 某 种 能 力 测验 上 得 分 较 高 的 人 ,在 别 的 能 力 测验 上 也 可 能 得 分 较 高 。 他 
运用 因素 分 析 的 方法 ,将 这 种 相关 归 因 于 一 种 一 般 因素 , 即 G 因素 ,并 从 三 个 方面 对 它 进 行 
了 定义 , 即 经 验 的 领会 .关系 的 推断 和 相关 的 推理 。 斯 皮尔 曼 认为 ,G 因素 渗透 在 所 有 与 智 
力 相关 的 任务 中 ,由 于 这 个 G 因素 ,无 论 他 或 她 所 承担 的 任务 是 哪 种 类 型 ,该 个 体 都 可 以 做 
到 大 致 相同 的 熟练 水 平 。 例 如 ,一 名 具有 较 高 G 因素 水 平 的 大 学 生 ,能 显示 出 对 大 部 分 甚至 


全 部 课程 的 高 水 平 理 解 。 斯 皮尔 曼 也 认为 ,个 体 智力 的 差异 取决 于 个 体 G 因素 水 


EF 的 高 低 ， 


o 


第 七 章 ”智力 测验 mea 


智力 测验 就 是 要 测量 出 G 因素 的 水 平 。 

但 是 ,由 于 测验 之 间 并 非 完 全 相关 ,因此 斯 皮尔 曼 又 提出 智力 还 存在 特殊 因素 , 即 S 因 
素 。 然 而 ,他 强调 G 因素 才 是 智力 的 核心 ,'S 因素 只 有 在 某 些 特定 情况 下 才 显 示 出 来 ,具有 
偶然 性 。 图 7- 1 说 明了 G 因素 与 S 因素 之 间 的 关系 。 


图 7-1 斯 皮尔 曼 智 力 二 因素 示意 图 
注 : 图 中 A,B,C,D 为 4 个 能 力 测验 ,G 因素 为 4 个 测验 的 共同 因素 ,Si S2 Ss Si 分 别 为 4 个 测验 的 特殊 因素 。 


2. HARARE 

1941 年 ,美国 心理 计量 学 家 瑟 斯 顿 (L.L. Thurstone) 认 为 ,智力 的 核心 不 是 单一 的 G A 
素 ,而 是 许多 基本 的 彼此 相关 的 能 力 群 因素 。 他 运用 多 重 因素 分 析 的 方法 ,从 不 同 的 测验 结 
果 出 发 ,发 现 这 些 能 力 测验 的 结果 可 以 组 成 7 个 测验 群 ,每 个 测验 群 内 的 各 个 分 测验 之 间 的 
相关 较 高 ,但 测验 群 与 测验 群 之 间 的 相关 却 较 低 。 因 此 , 瑟 斯 顿 认 为 ,智力 应 该 是 由 7 种 基 
本 的 心理 能 力 所 组 成 ,这 7 种 基本 的 心理 能 力 分 别 为 语文 理解 ,言语 流畅 性 、 推 理 、 空 间 想 
象 数 字 , 记 忆 和 知觉 速度 。 图 7 一 2 为 三 斯 顿 智力 群 因素 示意 图 。 


A c 
因素 1 因素 2 
B D 


47-2 瑟 斯 顿 智力 群 因素 示意 图 


注 : 图 中 A、B.C.D 为 4 个 能 力 测验 ,A 与 了 相关 ,有 共同 因素 1;C 与 D 相关, 有 共同 因素 2。 但 是 ,A.B 与 C.D 
之 间 不 存在 相关 。 
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瑟 斯 顿 并 不 否认 G 因素 的 存在 ,但 他 认为 可 能 存在 一 种 二 阶 因素 。 瑟 斯 顿 认为 ,在 评价 
一 个 人 的 智力 的 时 候 ,分 析 特 殊 能 力 更 有 用 。 他 说 :“ 我 们 不 要 老 是 说 智力 ,而 是 要 说 与 这 件 
事情 有 关 或 无 关 的 智力 ." 瑟 斯 顿 根 据 自 己 的 理论 编制 了 著名 的 “基本 的 心理 能 力 测验 ” 
(Primary Mental Abilities Test, PMAT) ,用 以 证 明确 实 存在 7 种 基本 的 心理 能 力 。 

3. 智力 三 维 结构 模型 

1959 年 ,美国 心理 学 家 吉尔 福 德 (T. Guilford) Ait 20 年 的 探索 ,采用 因素 分 析 的 方法 
检验 了 许多 与 智力 相关 的 任务 ,提出 了 智力 三 维 结构 模型 ,这 通常 被 视 为 是 瑟 斯 顿 理论 的 拓 
展 , 如 图 7-3 所 示 。 该 模型 包含 了 以 下 三 个 维度 。 

第 一 维度 : 内 容 因 素 。 指 引起 心智 活动 的 各 类 刺激 ,包括 5 个 方面 : 视觉 (F) 一 一 形状 
大 小 、 颜 色 等 ;听觉 (A) 一 一 声音 信号 ;符号 (S) 一 一 字母 ,数字 等 ;语义 (M) 一 一 词句 的 意 
义 ,概念 等 ;行为 (B) 一 一 各 种 行为 模式 。 

第 二 维度 : 操作 因素 。 指 由 各 种 刺激 引起 的 反应 方式 和 心理 过 程 ,包括 5 个 方面 : AA 
(O ,记忆 (MD) ,发 散 思维 (D) .聚合 思维 (N) ,评价 (E)。 

第 三 维度 : 产品 因素 。 指 心智 活动 的 产物 , 即 对 各 种 刺激 的 反应 结果 ,包括 6 个 方面 : 
单位 (U) 一 一 可 以 按 单位 计算 的 产物 ,如 一 个 词 一句 话 等 ;分 类 (C) 一 一 将 事物 分 类 ;关系 
(R) 一 一 推断 两 个 事物 间 的 关系 ;系统 (S) 一 一 推断 一 个 系统 内 诸 事 物 的 关系 ;转换 (T) 一 一 
对 事物 认识 的 迁移 ;蕴含 (DD 一 一 解释 内 涵 。 

每 一 个 智力 任务 都 包含 这 三 个 维度 ,这 三 个 维度 的 不 同 变化 组 合 便 可 以 产生 15005 & 5 
X6) 种 不 同 的 心理 能 力 。 吉 尔 福 德 认为 ,每 一 个 内 容 一 操作 一 产品 的 结合 (模型 中 的 每 一 个 
小 立方 体 ) 代 表 一 个 独立 的 心理 能 力 。 例 如 ,如 图 7-3 所 示 , 语 词 测验 可 以 测定 人 们 的 语义 
认 知 单元 。 


认 知 (操作 ) 
语词 测验 单元 (产品) 


语义 ( 内容) 


au 
ga 


BOAR WN ok ii 
o> $8 SN OE Sl 


图 7-3 吉尔 福 德 智力 三 维 结构 模型 
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吉尔 福 德 的 这 一 结构 模型 与 化 学 元 素 周期 表 类 似 。 根 据 这 一 结构 模型 框架 ,智力 因素 
可 以 像 化 学 元 素 一 样 ,在 它们 被 发 现 之 前 就 被 假定 。 在 吉尔 福 德 1959 年 提出 这 一 模型 后 不 
久 , 就 有 近 40 种 智力 被 确认 。 现 在 ,研究 者 已 经 发 现 了 超过 100 种 的 智力 。 由 此 可 见 , 吉 尔 
福 德 的 智力 三 维 结构 模型 具有 一 定 的 预测 价值 。 

4. 智力 三 层次 结构 论 

1960 年 ,美国 心理 学 家 弗 农 (P. E. Vernon) 认 为 ,智力 结构 由 三 个 层次 的 因素 构成 ,其 中 
第 一 次 层次 是 G 因素 ,处 于 智力 结构 的 最 高 层 ,贯穿 于 其 他 所 有 智力 因素 之 中 ;第 二 层次 是 
言语 能 力 和 操作 能 力 两 个 因素 ;第 三 层次 是 一 些 基 本 的 心理 能 力 ,如 数学 ,语文 .空间 知觉 、 
机 械 能 力 等 ,如 图 7-4 所 示 。 


G 因 素 
言语 能 力 操作 能 力 
数学 、 语 文 …… 空间 知觉 、 机 械 能 力 …… 


图 7-4 弗 农 智力 三 层次 结构 示意 图 


5. 智力 层次 论 

1963 年 ,美国 心理 学 家 卡特 尔 (R. B. Cattell) 采 用 更 为 先进 的 因素 分 析 的 方法 ,将 一 般 
智力 分 为 两 个 层次 ,每 个 层次 是 一 个 独立 的 成 分 ,他 称 为 晶体 智力 和 流体 智力 。 品 体 智力 
(crystallized intelligence) 是 一 个 人 所 获得 的 知识 以 及 获得 知识 的 能 力 , 它 由 语词 .算术 等 测 
验 来 测定 。 流 体 智力 (fluid intelligence) 是 发 现 复杂 关系 以 及 解决 问题 的 能 力 , 它 由 木 块 图 、 
空间 视觉 等 测验 来 测定 。 在 这 些 测验 中 ,所 需要 的 背景 信息 是 很 明确 的 。 唱 体 智 力 使 人 们 
很 好 地 面 对 自 己 的 生活 和 具体 问题 ,而 流体 智力 帮助 人 们 处 理 新 的 复杂 问题 。 随 着 年 龄 的 
增长 ,流体 智力 随 生理 生 长 曲线 的 变化 而 变化 ,在 青少年 期 达到 高 峰 , 在 成 年 期 保持 一 段 “高 
原状 态 ”, 然 后 逐渐 下 降 ;而 晶体 智力 在 成 年 期 不 仅 不 下 降 , 反 而 有 所 增长 。 图 7-5 是 晶体 
智力 和 流体 智力 的 发 展 曲线 。 


智力 


10 20 30 40 50 60 70 
年 龄 
图 7-5 卡特 尔 晶体 智力 和 流体 智力 的 发 展 曲线 
(二 ) 基于 因素 分 析 与 信息 加 工整 合 的 智力 测验 理论 
20 世纪 60 年 代 以 来 , 随 着 计算 机 科学 的 发 展 和 认 知 心理 学 的 兴起 ,智力 研究 的 焦点 也 
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逐渐 转向 对 智力 内 部 加 工 过 程 的 探讨 。20 世纪 80 年 代 后 期 ,新 的 智力 测验 理论 相继 提出 ， 
出 现 了 因素 分 析 与 信息 加 工整 合 的 趋势 ,重视 智力 活动 中 对 认 知 过 程 及 自我 意识 的 探讨 。 
因素 分 析 与 信息 加 工整 合 呈 现 出 多 维 、 多 元 化 的 走向 。 其 中 ,最 具 代表 性 的 理论 是 加 德 纳 的 
智力 多 元 论 和 斯 滕 伯 格 的 智力 三 因素 论 。 

1. 智力 多 元 论 

1983 年 ,美国 心理 学 家 加 德 纳 (H. Gardner) 通 过 对 脑 损伤 病人 的 研究 及 对 特殊 人 和 群 智 
力 的 分 析 , 提 出 了 智力 多 元 论 。 加 德 纳 认 为 ,智力 是 由 8 种 相对 独立 的 智力 成 分 所 构成 的 ， 
如 表 7-4 所 示 。 每 一 种 智力 依据 某 一 社会 对 它 的 需要 、 奖 赏 以 及 它 对 社会 的 作用 的 不 同 ， 
在 不 同 的 人 类 社会 中 价值 也 不 同 。 

表 7-4 加 德 纳 的 8 种 智力 成 分 


智力 英文 职业 类 型 代表 ”代表 人 物 中 心 成 分 


logical- 对 事物 间 的 各 种 关系 (如 类 比 \ 对 比 ` 因 果 和 退 
逻辑 一 数学 mathematical 科学 家 ,数学 家 ZAM MKD MARY RUM Mis A Mie E E E 
intelligence 等 进行 思维 的 能 力 


verbal- 
es isis à 对 词 的 声音 、 节 律 和 意义 的 灵敏 辨别 能 力 ,对 
言语 。 lingusitic ”文学 家 ,新 闻 记 者 。 重 迅 不 同 语言 功能 的 灵活 表达 能 力 


intelligence 

naturalist 生物 学 家 、 
intelligence 环保 主义 者 
musical- 

音乐 rhythmic 作曲 家 、 小 提琴 家 ”莫扎特 


intelligence 


达尔 文 ”对 种 属 不 同 的 灵敏 性 ,对 生物 敏锐 观察 的 能 力 


产生 和 欣赏 节奏 、 音 高 和 闸 音 的 能 力 ,对 不 同 
音乐 表达 形式 的 鉴赏 能 力 


visual- 

空间 spatial 航海 家 、 雕 刻 家 ”毕加索 
intelligence 
bodily- 

身体 运动 ”kinesthetic ”舞蹈 家 、 运 动员 乔丹 控制 身体 运动 和 有 技巧 地 运用 物体 的 能 力 


intelligence 


interpersonal 外 交 家 、 


准确 知觉 视觉 空间 世界 的 能 力 , 对 人 的 最 初 知 
觉 进行 操作 转换 的 能 力 


对 其 他 人 的 情绪 气质 动机 和 期 望 的 辨别 和 


人 际 交往 ,cligence 心理 治疗 师 MOF 恰当 反应 能 力 
i 对 自己 清晰 的 感知 .区 分 ,并 以 此 指导 行为 的 
ARUM intelligence PFZ 。 柏拉图 能力, 了 解 自己 的 力量 、 弱 点 .期 望 和 智力 竺 


加 德 纳 认为 ,西方 社会 促进 了 表 7 一 4 中 的 前 两 种 智力 的 发 展 , 而 非 西方 社会 对 其 他 智 
力 更 为 注重 。 例 如 ,在 西 太平 洋 岛 群 的 卡 罗 琳 岛 , 船 员 们 必须 能 够 在 没有 地 图 的 情况 下 , 仅 
仅 依 靠 他 们 的 空间 智力 和 身体 运动 智力 航行 很 长 一 段 距离 ,在 那个 社会 中 ,这 种 能 力 比 写 出 
一 篇 学 术 论 文 更 重要 。 又 如 ,在 巴厘 岛 ,艺术 行为 是 人 们 日 常生 活 的 重要 组 成 部 分 ,因而 音 
乐 智力 更 为 宝贵 。 再 如 ,与 美国 等 个 性 化 的 社会 相 比 ,日 本 这 样 的 群体 社会 更 强调 合作 行为 
和 公众 生活 ,因而 人 际 交往 智力 尤为 重要 。 加 德 纳 的 智力 多 元 论 认为 ,应 该 对 个 体 在 许多 生 
活 情境 中 的 行为 进行 系统 地 观察 和 评价 ,并 将 传统 的 智力 测验 的 结果 仅仅 视 为 生活 情境 的 
一 个 很 小 的 缩影 。 
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2. 智力 三 因素 论 

1985 年 ,斯 腾 伯 格 (R. L. Sternberg) 认 为 ,传统 的 智力 测验 理论 只 看 到 智力 的 某 个 方 
面 ,因而 是 不 完备 的 。 完 备 的 智力 理论 应 该 说 明智 力 的 三 个 方面 , 即 智力 的 内 在 成 分 .智力 
成 分 与 经 验 的 关系 ,以 及 智力 成 分 的 外 部 作用 。 斯 滕 伯 格 对 这 三 个 方面 进行 了 详细 阐述 ,从 
而 提出 了 他 的 智力 三 因素 论 。 智 力 三 因素 论 包 括 三 个 亚 理 论 , 即 智力 情境 亚 理论 (情境 智 
力 ) .智力 经 验 亚 理论 (经 验 智力 ) 和 智力 成 分 亚 理论 (成 分 智力 ) 。 

第 一 ,智力 情境 亚 理 论说 明了 智力 承担 着 个 体 对 环境 的 适应 功能 。 当 环境 不 适合 于 个 
体 的 能 力 、 兴 趣 或 价值 取向 时 ,个 体 便 会 尝试 改造 环境 以 达到 人 与 环境 的 和 谐 。 当 改造 失败 
时 ,个 体 可 能 会 选择 一 个 新 的 环境 ,从 而 使 人 与 环境 达到 更 好 的 和 谐 。 因 此 ,情境 智力 行为 
包括 三 个 方面 , 即 个 体 对 现实 环境 的 适应 ;个 体 选择 比 现实 环境 更 恰当 的 情境 ;改造 现实 环 
境 以 使 之 更 适合 于 个 体 的 能 力 ,兴趣 或 价值 取向 。 

第 二 ,智力 经 验 亚 理论 说 明了 在 特定 任务 或 环境 中 个 体 利用 经 验 的 智慧 性 。 为 产生 与 
情境 相 适 应 的 行为 ,个 体 不 会 在 该 行为 的 经 验 连续 体 的 任何 位 置 上 都 会 产生 同等 “智慧 ”。 
相反 , 当 个 体面 临 一 个 相对 (但 非 完 全 ) 新 的 任务 或 情境 时 ,或 在 特定 任务 或 情境 的 自动 化 操 
作 过 程 中 ,其 经 验 智力 才 会 很 好 地 展现 出 来 。“ 新 "情境 与 “ 旧 " 经 验 在 一 定 程度 上 是 相互 作 
用 的 : 一 方面 ,有 效 的 自动 化 加 工 将 多 余 的 资源 分 配给 环境 中 新 异 刺激 的 加 工 ; 男 一 方面 ， 
对 新 异 刺激 的 有 效 适 应 能 促使 个 体 及 早产 生 新 任务 .新 环境 经 验 中 的 自动 化 加 工 。 因 此 ,我 
们 不 能 将 一 个 任务 简单 地 归 类 为 需要 智力 或 不 需要 智力 。 其 实 , 一 个 任务 在 多 大 程度 上 需 
要 智力 或 不 需要 智力 ,可 能 取决 于 个 体 具 有 多 少 关于 所 遇 任务 的 “ 旧 ” 经 验 。 

第 三 ,智力 成 分 亚 理论 说 明了 构成 智力 行为 的 结构 和 机 制 。 在 智力 成 分 亚 理论 中 ,智力 
行为 的 内 在 机 制 是 由 三 种 成 分 所 构成 的 , 即 元 成 分 、 操 作成 分 和 知识 获得 成 分 。 元 成 分 控制 
信息 加 工 过 程 ,并 执行 监督 和 评价 这 一 过 程 ;操作 成 分 执行 元 成 分 构建 的 计划 ;知识 获得 成 
分 进行 选择 性 编码 、 联 结 新 信息 ,并 选择 性 地 比较 新 旧 信 息 , 以 使 个 体 学 习 新 信息 。 

斯 腾 伯 格 的 智力 三 因素 论 认为 ,IQ 测验 并 不 能 涵盖 智力 行为 的 全 部 内 容 , 人 们 不 能 仅 
仅 依 据 高 IQ 或 低 IQ 来 对 个 体 智力 进行 归 类 。 例 如 ,假定 研究 者 认识 到 ,不 聪明 ”的 人 是 因 
为 不 能 编码 所 有 的 相关 信息 ,所 以 他 们 在 完成 特定 的 任务 时 有 困难 ,那么 若 他 们 对 特定 的 成 
分 加 以 练习 , 则 会 以 一 种 “聪明 ”的 方式 来 进行 操作 ,这 时 成 分 智力 就 可 以 被 加 强 。 同 样 地 ， 
斯 滕 伯 格 相信 ,人 们 可 以 通过 训练 来 提高 经 验 智 力 和 情境 智力 ;通过 对 行为 中 成 分 智力 过 程 
的 适当 理解 ,人 们 也 能 够 采取 一 些 技巧 ,使 每 个 人 的 操作 看 起 来 都 “聪明 ”。 

(=) 基于 神经 心理 学 的 智力 测验 理论 

基于 神经 心理 学 的 智力 测验 理论 ,一般 是 建立 在 鲁 利 亚 (A. P. Luria) 大 脑 功能 模型 基础 
之 上 的 ,是 以 心理 加 工 理论 为 依据 的 。 其 中 ,最 受 认可 的 当 属 戴 斯 (J. P. Das) 、 纳 格 利 尔 里 
g. A. Naglierli) 和 考 尔 比 (J. R. Kirby) 等 人 的 智力 PASS (Planning-Attention- 
Simultaneous-Successive Processing) 模 型 .如 图 7-6 所 示 。 

在 鲁 利 亚 关 于 大 脑 皮 层 三 个 机 能 学 说 的 基础 上 . 戴 斯 等 人 于 20 世纪 90 年 代 提出 了 智 
Ji PASS 模型 , 即 * 计 划一 注意 一 同时 性 加 工 一 继 时 性 加 工 ? 模 型 。 该 模型 认为 ,智力 是 由 包 
含 4 种 认 知 过 程 的 三 个 认 知 功能 系统 所 组 成 的 。 

其 中 ,注意 一 唤醒 系统 (A) 是 整个 系统 的 基础 ,负责 引起 注意 和 激活 智力 活动 ,影响 着 
个 体 对 信息 进行 编码 和 计划 ;同时 性 加 工 一 继 时 性 加 工 系统 (编码 系统 )(S 一 S) 是 整个 系统 
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计划 (P) 


继 时 性 加 工 (S) | EY 


注意 一 唤醒 (A) 


图 7-6 戴 斯 等 人 智力 PASS 模型 


的 中 间 环 节 , 主 要 是 以 同时 性 (并 行 ) 和 继 时 性 (序列 ) 两 种 加 工 方式 接收 、 解 释 、 转 换 、 再 编码 
和 储存 外 界 信息 ,是 智力 活动 的 主要 操作 系统 ;计划 系统 (P) 是 整个 系统 的 最 高 层次 ,负责 计 
划 、 监 控 、 调 节 、 评 价 等 高 级 功能 ,并 对 另外 两 个 系统 起 着 监控 和 调节 的 作用 。 

三 个 认 知 功 能 系统 是 相互 联系 的 。 其 中 ,计划 系统 需要 一 个 充分 的 唤醒 状态 ,以 使 注意 
能 够 集中 ,进而 促进 计划 的 产生 ;编码 系统 和 计划 系统 也 是 密 不 可 分 的 ,因为 现实 生活 中 的 
不 同 任务 往往 能 以 不 同 的 方式 进行 编码 ,但 个 体 在 对 信息 进行 编码 之 后 如 何 加 工 这 些 信 息 
却 是 计划 的 功能 。 如 此 看 来 ,同时 性 加 工 和 继 时 性 加 工 也 要 受到 计划 系统 的 影响 。 总 之 ,三 
个 认 知 功 能 系统 紧密 联系 ,相互 协调 ,统一 运行 。 


第 二 节 个别 智 力 测验 


根据 施 测 对 象 的 数量 ,一般 将 智力 测验 分 为 个 别 智力 测验 和 团体 智力 测验 。 个 别 智力 
测验 ,顾名思义 ,就 是 一 名 主 试 对 一 名 被 试 进行 一 对 一 、 面 对 面 地 施 测 , 而 团体 智力 测验 , 则 
是 由 一 名 主 试 同时 对 多 名 被 试 进行 施 测 。 个 别 智 力 测验 的 优势 较为 明显 ; 主 试 可 以 在 测试 
过 程 中 对 被 试 的 言语 、 情 绪 等 进行 仔细 地 观察 和 记录 ; 主 、 被 试 之 间 的 交流 和 互动 更 为 直接 ， 
从 而 保证 了 测试 的 准确 性 。 但 是 ,个 别 智力 测验 也 有 一 些 不 足 : 对 主 试 的 要 求 较 高 , 需 经 过 
正规 .严格 的 专业 训练 后 才能 担任 施 测 工作 ;并 且 , 某 些 测验 可 能 不 易 在 短 时 间 内 收集 到 大 
量 的 资料 。 常 见 的 个 别 智 力 测 验 包 括 比 内 智力 量 表 、 韦 氏 智 力量 表 和 考 夫 曼 儿 童 成 套 评 价 
测验 等 ,本 节 将 对 这 些 常用 的 个 别 智力 测验 进行 介绍 。 


一 、 比 内 智力 量 表 


(一 ) 比 内 一 西蒙 智力 量 表 

1905 年 ,法 国 心理 学 家 比 内 (A. Binet) 及 其 助手 西蒙 (T. Simon) 为 了 诊断 智力 异常 的 儿 
童 ,编制 开发 了 世界 上 第 一 个 正式 的 智力 测验 工具 。 这 个 量 表 由 30 个 项 目 组 成 ,测量 多 方 
面 的 智力 表现 ,如 记忆 言语 ,理解 、 判 断 、 推 理 等 。 量 表 以 被 试 所 能 通过 的 项 目 数 作为 区 分 
被 试 智力 的 标准 。 由 于 此 量 表 已 经 指出 不 同年 龄 的 儿童 所 能 通过 的 项 目 数量 ,因此 已 具有 
年 龄 量 表 的 雏形 。 

1908 年 , 比 内 和 西蒙 对 量 表 进 行 了 修订 ,使 其 成 为 一 个 年 龄 量 表 。 具 体 的 修订 内 容 如 
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F: 加 增加 并 修改 测验 项 目 , 使 测验 项 目 增 至 59 A OR ER . AEM BEI H ETAS 
13 3 ,每 一 岁 一 组 , 共 分 为 11 组 );@ 最 早 启用 了 智力 年 龄 来 表示 被 试 智力 的 相对 水 平 高 低 ， 
以 智力 年 龄 来 评估 个 体 智力 , 即 被 试 通过 哪 一 个 年 龄 组 的 项 目 , 便 认为 他 具有 这 一 个 年 龄 的 
智力 水 平 。 

1911 年 , 比 内 和 西蒙 再 次 对 智力 量 表 进行 了 修订 ,改变 了 一 些 项 目的 内 容 和 顺序 ,并 添 
加 了 成 人 组 题目 ,将 被 试 对 象 延伸 到 了 成 人 阶段 。 

尽管 如 今 看 来 , 比 内 一 西蒙 智力 量 表 具 有 很 多 的 不 足 , 如 项 目 简陋 .并非 完 全 标准 化 等 ， 
但 是 它 却 开创 了 智力 测验 的 先河 ,并 提出 了 年 龄 量 表 的 思想 ,这 都 为 后 来 的 智力 测验 提供 了 
重要 的 指导 意义 。 

(=) 斯 坦 福 一 比 内 智力 量 表 

1. 斯 坦 福 一 比 内 智力 量 表 的 发 展 

比 内 一 西蒙 智力 量 表 在 1905 年 发 表 后 , 戈 达 德 (H. Goddard) 将 其 介绍 到 美国 ,引起 了 
美国 广大 心理 学 工作 者 的 关注 ,有 很 多 人 都 对 其 进行 了 修订 。 其 中 ,影响 最 为 广泛 且 得 到 认 
可 的 是 斯 坦 福 大 学 心理 学 家 推 重 等 人 修订 的 斯 坦 福 一 比 内 智力 量 表 (Stanford-Binet 
Intelligence Scale) 。 

1916 年 , 推 孟 等 人 发 表 了 斯 坦 福 一 比 内 智力 量 表 第 1 版 。 这 一 量 表 对 原来 的 比 内 一 西 
蒙 智 力量 表 作 了 大 量 的 修改 ,并 删除 了 部 分 题目 ,在 此 基础 上 又 增设 了 39 个 项 目 。 同 时 ,在 
修订 过 程 中 选取 了 1 000 名 儿童 和 400 名 成 人 作为 美国 样本 ,来 对 量 表 进 行 标准 化 。 量 表 对 
每 个 项 目的 施 测 规定 了 详细 的 指导 语 和 评分 标准 ,并 最 早 采 用 了 “比率 智商 "来 表示 智力 的 
相对 水 平 高 低 , 即 以 IQ 作为 个 体 智力 水 平 的 指标 。 

1937 年 , 推 孟 等 人 对 斯 坦 福 一 比 内 智力 量 表 进行 了 第 一 次 修订 , 即 斯 坦 福 一 比 内 智力 
量 表 第 2 版 。 第 一 次 修订 的 版 本 包括 L 型 和 M 型 两 个 等 值 量 表 。 这 个 版 本 的 量 表 由 原来 
只 能 测试 3 一 13 岁 的 儿童 扩展 到 能 测试 1. 5 一 18 岁 的 儿童 ,并 且 根 据 当 时 美国 的 最 新 人 口 
状况 ,选取 了 3 148 名 被 试 来 对 量 表 重 新 进行 标准 化 ,得 到 了 更 具 代 表 性 的 信 效 度 资 料 。 但 
是 ,此 时 选取 的 样本 仍然 只 局 限于 本 地 出 生 的 白人 ,并 且 多 是 社会 经 济 地 位 较 高 的 城市 家 庭 
儿童 ,因此 未 能 全 面 反映 美国 当时 的 人 口 状况 。 

1960 年 , 推 孟 等 人 对 第 一 次 修订 的 版 本 中 的 工 型 和 M 型 等 值 量 表 进行 了 合并 ,将 这 两 
个 量 表 中 的 最 佳 项 目 组 合成 了 LM 型 单一 量 表 , 并 将 量 表 的 适用 范围 扩大 到 成 人 , 即 
斯 坦 福 一 比 内 智力 量 表 第 3 版 。 在 这 一 版 的 量 表 中 ,不 再 采用 比率 智商 ,而 是 采用 平均 数 为 
100 ,标准 差 为 16 的 离 差 智商 ,以 此 作为 智力 水 平 的 评估 指标 。 

1972 年 , 推 孟 等 人 对 LM 型 单一 量 表 进 行 了 再 次 标准 化 ,内 容 上 却 没 有 太 大 变化 。 

1986 年 , 桑 代 克 、 哈 根 和 沙特 勒 等 人 修订 出 版 了 斯 坦 福 一 比 内 智力 量 表 第 4 版 。 斯 坦 
福 一 比 内 智力 量 表 第 4 版 采用 ”智力 三 层次 认 知 能 力 结构 模型 "作为 编制 量 表 的 依据 。 该 模 
型 的 第 一 层次 是 一 般 智 力 因 子 ; 第 二 层次 是 流体 一 分 析 智 力 因 子 、 晶 体 智力 因子 和 短 时 记忆 
智力 因子 ;第 三 层次 是 各 项 基本 的 心理 能 力 。 此 版 本 的 测验 内 容 与 第 3 版 内 容 相 比 ,差别 不 
大 ,但 却 采用 了 新 的 常 模 团 体 。 此 次 所 选取 的 常 模 团 体 包括 了 美国 各 个 地 区 、 各 个 社会 阶 
层 、 各 种 经 济 状况 .各 个 民族 的 5 000 余 名 儿童 ,涵盖 了 2 一 23 岁 的 各 年 龄 阶层 。 

2003 年 , 罗 德 (G. Roid) 等 人 修订 出 版 了 最 新 版 的 斯 坦 福 一 比 内 智力 量 表 第 5 版 。 该 版 
本 根据 美国 的 人 口 普查 结果 , 按 性 别 、 年 龄 种族. 地 区 和 社会 经 济 地 位 进行 分 层 抽样 ,涵盖 
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了 2 一 85 岁 的 各 年 龄 阶层 ,使 常 模 团体 更 具有 代表 性 。 斯 坦 福 一 比 内 智力 量 表 第 5 版 包含 
了 60 个 项 目 , 测 试 了 5 个 方面 的 认 知 能 力 , 这 5 个 方面 的 认 知 能 力 均 通过 言语 与 非 言语 测 
验 进 行 测试 。 这 一 版 本 所 得 到 的 离 差 智 商 是 平均 数 为 100, 标 准 差 均 为 15 的 3 个 智商 分 数 
和 5 个 指标 分 数 。 其 中 ,3 个 智商 分 数 分 别 为 言语 智商 、 非 言语 智商 和 总 智商 ,5 个 指标 分 数 
分 别 是 流体 推理 .常识 数量 推理 ,视觉 一 空间 操作 和 工作 记忆 等 指标 的 分 数 。 

2. 斯 坦 福 一 比 内 智力 量 表 的 信 度 与 效 度 

(1) 信 度 

一 般 而 言 ,对 年 龄 较 大 的 被 试 ,斯 坦 福 一 比 内 智力 量 表 对 其 测试 结果 的 信 度 较 高 ;对 智 
商 较 低 的 被 试 ,他 们 的 测试 结果 的 信 度 也 较 高 。 斯 坦 福 一 比 内 智力 量 表 第 5 版 的 分 测验 、 指 
标 分 数 和 IQ 的 分 半 信 度 范围 在 0. 84 到 0. 98 之 间 ; 言 语 和 非 言语 测验 的 重 测 信和 度 的 中 数 为 
0. 93; 评 分 者 信 度 的 中 数 为 0.90。 

(2) 效 度 

O 内 容 效 度 。 斯坦福 一 比 内 智力 量 表 的 测试 项 目 涉 及 言语 推理 .记忆 、 理 解 、 
视觉 一 空间 操作 等 多 方面 的 内 容 , 这 都 是 公认 为 属于 智力 范畴 的 内 容 。 

© 效 标 效 度 。 斯 坦 福 一 比 内 智力 量 表 的 测试 结果 与 被 试 的 学 业 成 绩 , 教 师 评定 和 受 教 
育 年 限 等 外 在 效 标 分 数 之 问 存在 正 相关 , 效 标 关联 系数 在 0. 40 到 0. 75 之 间 ,与 其 他 智力 测 
验 的 相关 在 0.70 到 0. 80 之 间 。 

斯 坦 福 一 比 内 智力 量 表 的 理论 构想 主要 有 以 下 两 点 : 一 是 智力 随 年 龄 的 增长 而 发 展 ， 
发 展 速度 按照 先 快 后 慢 的 规律 进行 ;二 是 智力 结构 中 存在 一 般 因素 G, 是 每 一 个 智力 行为 的 
核心 。 在 实际 应 用 中 ,斯 坦 福 一 比 内 智力 量 表 的 信 度 研究 显示 ,其 再 测 稳定 性 随 年 龄 而 提 
高 ,表明 智力 的 确 随 年 龄 的 增长 而 发 展 , 且 呈 先 快 后 慢 的 趋势 。 另 外 ,斯 坦 福 一 比 内 智力 量 
表 的 各 个 项 目 与 总 分 之 间 的 平均 相关 达到 0. 66 ,表明 各 项 目 所 测 特质 的 同 质 性 较 高 ,这 支持 
了 量 表 理论 构想 中 关于 一 般 因素 G 的 假设 。 

(三 ) 中 国 比 内 测验 

1924 年 ,我 国 陆 志 韦 对 斯 坦 福 一 比 内 智力 量 表 进 行 了 修订 ,出 版 7 了“ 中国 比 内 一 西蒙 知 
力 测验 ”。1936 年 ,他 与 吴 天 敏 合 作 ,发 表 了 第 二 次 的 修订 版 本 。1979 年 , 吴 天 敏 主 持 了 第 
三 次 修订 ,并 在 1982 年 出 版 了 “中 国 比 内 测验 ”。 该 测验 共有 51 个 项 目 ,从 易 到 难 进行 排 
序 ,适用 于 年 龄 为 2 一 18 岁 的 被 试 ,每 岁 三 个 项 目 。 在 评价 智力 水 平时 ,中 国 比 内 测验 采用 
离 差 智 商 来 计算 IQ。 

中 国 比 内 测验 必须 个 别 施 测 ,要 求 主 试 接受 过 专门 的 训练 ,对 测验 相当 熟悉 并 且 有 一 定 
的 施 测 经 验 ,能 够 严格 按照 测验 指导 手册 中 的 指导 语 进行 施 测 。 施 测 时 ,首先 ,根据 被 试 实 
际 年 龄 从 测验 手册 的 附 表 中 找到 其 对 应 年 龄 的 题 号 ,如 2 一 5 岁 的 被 试 从 第 一 题 开 始 作 答 ， 
6 一 7 岁 的 被 试 从 第 七 题 开始 作答 ,8 岁 的 被 试 从 第 十 题 开始 作答 ,15 岁 的 被 试 从 第 二 十 三 题 
开始 作答 ,等 等 。 然 后 , 主 试 须 根据 指导 手册 进行 逐 题 施 测 , 答 对 的 题目 记 1 分 , 答 错 的 题目 
记 0 分 , 若 被 试 连续 5 题 答 错 , 则 终止 测验 。 最 后 ,在 评估 被 试 的 智商 时 ,根据 被 试 的 测验 总 
分 和 他 的 实际 年 龄 在 指导 手册 的 常 模 表 中 查 到 其 智商 。 

为 了 节省 测验 时 间 , 吴 天 敏 在 “中 国 比 内 测验 ”的 基础 上 编制 了 一 份 简化 版 ,名 为 “中 国 
比 内 测验 简 编 ”, 该 测验 由 8 个 项 目 组 成 ,完成 时 间 为 20 分 钟 左右 。 
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二 、 韦 民智 力量 表 


(一 ) 韦 氏 智力 量 表 的 发 展 

韦 克 斯 勒 在 大 量 临 床 工作 经 验 中 发 现 ,大 脑 的 器 质 性 伤害 、 精 神 豪 退 和 情绪 问题 会 对 成 
人 的 某 些 智力 功能 产生 影响 ,并 且 影响 的 程度 大 于 其 他 功能 。 但 是 ,当时 的 智力 测验 主要 的 
施 测 对 象 是 儿童 ,测验 项 目 并 不 能 很 好 地 测 出 他 们 的 真实 智力 ,而 且 项 目 内 容 也 无 法 引起 成 
人 被 试 的 兴趣 ,缺乏 成 人 的 常 模 ,因此 他 决定 编制 一 份 适合 成 人 的 智力 测验 。1939 年 , 韦 克 
斯 勒 编制 了 韦 克 斯 勒 一 贝勒 维 智力 量 表 (Wechsler-Bellevue Intelligence Test, W-BI)。 这 是 
第 一 个 针对 成 人 编制 的 智力 测验 ,并 且 成 为 以 后 所 有 过 氏 智力 量 表 在 内 容 和 形式 上 的 难 形 。 
1942 年 ,又 推出 了 第 二 个 击 克 斯 勒 一 贝勒 维 智 力量 表 (W-BI)。1949 年 , 韦 克 斯 勒 将 
W-BIl 发 展 和 修改 成 韦 氏 儿 童 智力 量 表 (Wechsler Intelligence Scale for Children, WISC)。 
1955 年 ,为 了 改进 W-BI 的 常 模样 本 大 小 和 代表 性 ,并 增加 分 测验 信 度 、 效 度 方面 的 资料 , 韦 
克 斯 勒 编制 了 韦 氏 成 人 智力 量 表 (Wechsler Adult Intelligence Scale, WAIS), 以 之 取代 
W-BI。 后 来 , 韦 氏 成 人 智力 量 表 的 修订 版 在 1981 年 出 版 ,成 为 韦 氏 成 人 智力 量 表 修 订 版 
(Wechsler Adult Intelligence Scale-Revised, WAIS-R)。1997 年 , 韦 氏 成 人 智力 量 表 进 行 了 
第 三 次 修订 , 称 为 韦 氏 成 人 智力 量 表 第 3 版 (WAIS- 由 )。 韦 氏 成 人 智力 量 表 传 人 我 国 后 ,在 
湖南 医学 院 化 炮 先 教授 的 主持 下 ,对 其 进行 了 修订 ,并 在 1982 年 出 版 了 韦 氏 成 人 智力 量 表 
中 国 修订 版 (Wechsler Adult Intelligence Scale-Revised in China, WAIS-RC)。 

第 一 版 韦 氏 儿童 智力 量 表 (WISC) 于 1949 年 出 版 ,然而 并 没有 得 到 心理 学 界 的 普遍 承 
认 。 为 了 让 项 目 内 容 更 接近 于 儿童 的 生活 经 验 ,1974 年 修订 出 版 了 WISC-R, 它 的 适用 范围 
为 6 一 16 岁 。1991 年 , 韦 氏 儿童 智力 量 表 进行 了 第 三 次 修订 , 即 韦 氏 儿 童 智力 量 表 第 3 版 
CWISC- IIL) ,年 龄 范围 为 6 一 16 岁 11 个 月 。 目 前 , 韦 氏 儿童 智力 量 表 的 最 新 版 本 为 2003 年 
发 行 的 第 四 版 , 即 韦 氏 儿 童 智力 量 表 第 4 HRC WISC-IV). 20 世纪 80 年 代 前 后 ,我 国 林 传 更 
ATK IESE AK WISC-R 引入 中 国 , 于 1986 年 正式 出 版 了 韦 氏 儿童 智力 量 表 中 国 修订 版 
(Wechsler Intelligence Scale for Children-Chinese Revised, WISC-CR)。2003 4 . 3K JF E 
持 修 订 了 韦 氏 儿童 智力 量 表 第 4 版 中 文 版 (Wechsler Intelligence Scale for Children Fourth 
Edition-Chinese, WISC- IV 中 文 版 ) 。 

韦 氏 学 龄 前 及 幼儿 智力 量 表 (Wechsler Preschool and Primary Scale of Intelligence， 
WPPSI 是 韦 氏 儿童 智力 量 表 向 学 龄 前 及 幼儿 延伸 的 版 本 。 韦 氏 学 龄 前 及 幼儿 智力 量 表 第 
一 版 于 1967 年 出 版 ,适用 年 龄 为 4 岁 到 6 岁 半 。 韦 氏 学 龄 前 及 幼儿 智力 量 表 修 订 版 
CWPPSER) F 1988 年 出 版 ,适用 年 龄 扩展 为 3 岁 到 7 岁 3 个 月 。 目 前 ,该 量 表 的 最 新 版 本 
是 2003 年 发 行 的 第 三 版 , 即 韦 氏 学 龄 前 及 幼儿 智力 量 表 第 3 版 (WPPSI 焉 ) ,该 版 本 在 适用 
年 龄 上 作 了 延伸 ,适合 3 一 7 岁 的 婴 幼 儿 。1986 AF. He E ZERE He AIR IE BH AE WPPSI 进 
行 了 修订 ,出 版 了 中 国 一 韦 氏 幼儿 智力 量 表 (Chinese-Wechsler Young Children Scale of 
Intelligence.C-WYCSD 。 

(=) 韦 氏 成 人 智力 量 表 

1. 韦 氏 成 人 智力 量 表 修 订 版 (WAIS-R) 

韦 氏 成 人 智力 量 表 修订 版 由 11 个 分 测验 组 成 ,其 中 知识 数字 广度 .词汇 \ 算 术 、 领 悟 、 
相似 性 这 6 个 分 测验 组 成 言语 量 表 , 图 画 填 充 、 图 片 排列 、 木 块 图 、 图 形 拼 凑 、 数 字符 号 这 5 
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个 分 测验 组 成 操作 量 表 。 每 个 分 测验 的 项 目 由 易 到 难 进行 排列 ,言语 量 表 与 操作 量 表 交 蔡 
施 测 。 

WAIS-R 的 分 测验 均 独 自 计 分 ,并 在 转化 为 平均 数 为 10、 标 准 差 为 3 的 标准 二 十 分 数 
后 ,再 合成 言语 量 表 分 、 操 作 量 表 分 和 总 量 表 分 。 最 后 ,可 得 到 平均 数 为 100 标准 差 为 15 的 
三 个 离 差 智商 , 即 言语 智商 操作 智商 和 总 智商 。 

2. 书 氏 成 人 智力 量 表 第 3 版 (WAIS- 芽 ) 

与 前 几 版 的 韦 氏 成 人 智力 量 表 相 比 , 韦 氏 成 人 智力 量 表 第 3 版 修改 并 增加 了 分 测验 。 
言语 量 表 包括 知识 、 领 悟 、 算 术 、 相 似 性 ,数字 广度 、 词 汇 和 字母 一 数字 排序 这 7 个 分 测验 ,其 
中 字母 一 数字 排序 分 测验 是 备用 分 测验 ,可 在 其 他 6 个 分 测验 中 的 某 一 个 分 测验 未 能 顺利 
施 测 时 ,代替 原来 的 分 测验 。 操 作 量 表 包 括 数字 符号 / 译 码 、 图 画 填 充 , 木 块 图 .图 片 排列 、 矩 
阵 推理 ,符号 寻找 和 图 形 拼凑 这 7 个 分 测验 ,其 中 符号 寻找 和 图 形 拼凑 是 备用 分 测验 ,可 在 
其 他 5 个 分 测验 中 的 某 一 个 或 某 两 个 分 测验 未 能 顺利 施 测 时 ,代替 原来 的 分 测验 。 韦 氏 成 
人 智力 量 表 第 3 版 的 年 龄 适用 范围 为 16 一 89 岁 。 与 前 几 版 不 同 的 是 ,这 一 版 在 施 测 时 ,要 
求 被 试 从 基本 的 两 个 项 目 开始 , 若 被 试 在 这 两 个 项 目 上 的 表现 不 佳 , 则 需要 以 相反 的 顺序 施 
测 排 在 这 两 个 基本 项 目 之 前 的 项 目 ,直到 被 试 在 连续 两 个 项 目 上 得 到 理想 的 分 数 。 另 外 ， 
WAIS- 由 除了 提供 言语 智商 .操作 智商 和 总 智商 以 外 ,还 提供 了 4 个 指标 分 数 (指数 ), 分 别 
为 言语 理解 .知觉 推理 .工作 记忆 和 加 工 速度 等 指标 分 数 。 各 分 测验 所 对 应 的 指标 分 数 ,如 
表 7-5 所 示 。 

表 7-5 WAIS- 开 指标 分 数 的 分 测验 构成 


指标 分 数 分 测验 指标 分 数 分 测验 
词汇 算术 
言语 理解 相似 性 工作 记忆 数字 广度 
知识 领悟 
图 画 填充 数字 符号 / 译 码 
知觉 推理 木 块 图 加 工 速度 
图 片 排列 
和 矩阵 推理 


3. 书 氏 成 人 智力 量 表 中 国 修订 版 (WAIS-RC) 

中 国 版 的 韦 氏 成 人 智力 量 表 主 要 是 删除 了 与 我 国文 化 背景 不 相符 的 题目 ,并 根据 我 国 
常 模 团 体 的 测验 结果 对 测验 项 目的 顺序 作出 了 一 些 调整 。 韦 氏 成 人 智力 量 表 中 国 修 订 版 的 
主要 内 容 如 下 。 

(1) 言语 量 表 

® 知识 。 共 29 个 项 目 ,内 容 取 样 广泛 ,避免 了 超出 常识 范畴 的 专业 内 容 , 结 果 以 0/1 计 
分 ,用 于 测试 被 试 的 一 般 智 力 因 素 和 记忆 能 力 。 

© 领悟 。 共 14 个 项 目 ,要 求 被 试 说 明 某 种 情况 下 应 该 如 何 反应 ,或 者 应 该 如 何 理解 某 
些 话 ,结果 以 0/1/2 计 分 ,用 于 测试 被 试 的 运用 实际 知识 解决 问题 和 社会 适应 能 力 。 

OAR, H 14 个 项 目 ,内 容 属于 小 学 数学 运算 , 须 在 规定 的 时 间 内 完成 ,结果 以 0/1/2 
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计 分 ,用 于 测试 被 试 的 基本 数理 知识 和 数学 推理 能 力 。 

@ 相似 性 。 共 13 个 项 目 , 要 求 被 试 说 出 两 件 事物 的 相同 之 处 ,结果 以 0/1/2 计 分 ,用 于 
测试 被 试 的 抽象 逻辑 思维 和 分 析 概 括 能 力 。 

@ 数字 广度 。 共 22 个 项 目 ,前 12 个 项 目 要 求 被 试 将 主 试 口述 的 一 串 随机 数字 按 顺 序 
复述 出 来 ,后 10 个 项 目 要 求 被 试 将 主 试 口述 的 一 串 随 机 数字 按 倒序 复述 出 来 。 结 果 以 被 试 
所 背 最 高 位 为 准 , 前 面 低 位 的 分 数 不 加 在 内 进行 计 分 ,用 于 测试 被 试 的 注意 力 和 短 时 记忆 
能 力 。 

© 词汇 。 共 40 个 项 目 ,要 求 被 试 将 主 试 呈现 的 词汇 读 出 来 ,并 解释 该 词汇 的 含义 , 结 
果 以 0/1/2 计 分 ,用 于 测试 被 试 的 言语 理解 能 力 。 

(2) 操作 量 表 

D 数字 符号 。 要 求 被 试 按 答 题 卡 上 所 标示 的 数字 与 符号 的 对 应 关系 ,对 随机 数字 填 上 
相应 的 符号 , 须 在 限定 的 时 间 内 完成 。 结 果 以 被 试 正确 填写 数字 对 应 的 符号 数 来 进行 计 分 ， 
用 于 测试 被 试 的 建立 新 概念 和 知觉 辨别 速度 能 力 。 

© 图 画 填 充 。 共 21 个 项 目 ,每 个 项 目 具 有 一 张 缺失 了 某 部 分 的 图 ,要 求 被 试 说 出 缺失 
的 部 分 ,结果 以 0/1 计 分 ,用 于 测试 被 试 的 视觉 记忆 与 辨别 能 力 。 

© 木 块 图 。 共 10 个 项 目 ,要 求 被 试 使 用 9 块 积木 ,在 限定 的 时 间 内 摆 出 项 目 所 要 求 的 
形状 与 图 案 , 用 于 测试 被 试 的 知觉 组 织 、 视 动 协调 和 综合 分 析 能 力 。 

图 图 片 排列 。 共 8 个 项 目 , 每 个 项 目 包 含 几 张 打 乱 顺序 的 图 片 ,要 求 被 试 以 合理 的 顺 
序 进行 排列 ,以 组 成 一 个 情节 连贯 的 故事 ,用 于 测试 被 试 的 综合 分 析 和 知觉 组 织 能 力 。 

© 图 形 拼 竣 。 共 4 个 项 目 , 要 求 被 试 将 切割 成 儿 块 不 同形 状 的 图 形 拼 好 ,根据 完成 的 
质量 和 时 间 来 计 分 ,用 于 测试 被 试 的 知觉 组 织 和 概括 思维 能 力 。 

WAIS-RC 有 城市 和 农村 两 个 常 模 ,从 16 一 65 岁 分 成 了 8 个 年 龄 组 ,取样 来 自 21 个 省 。 
该 量 表 的 各 个 分 测验 的 分 半 信 度 在 不 同年 龄 组 的 分 布 为 0. 30 到 0. 85 之 间 , 重 测 信 度 在 
0. 82 到 0. 89 之 间 。 高 考 成 绩 差 异 显 著 的 被 试 ,他 们 的 WAIS-RC 测验 结果 同样 也 存在 显著 
差异 ,这 说 明 WAIS-RC 具有 一 定 的 实证 效 度 。 

(=) 韦 氏 儿童 智力 量 表 

1. 韦 氏 儿童 智力 量 表 第 3 版 (WISC- 芽 ) 

WISC- 芽 包括 言语 和 操作 两 个 分 量 表 ,由 13 个 分 测验 组 成 。 其 中 ,言语 量 表 包括 常识 、 
理解 ,算术 、 类 同 、 背 数 和 词汇 6 个 分 测验 ,其 中 背 数 为 备用 分 测验 。 操 作 量 表 包 括 填 图 、 积 
木 .图 片 排列 、 图 形 拼凑 、 译 码 、 符 号 检索 和 迷津 7 个 分 测验 .其 中 符号 检索 和 迷津 为 备用 分 
测验 。 

对 WISC- 焉 进行 因素 分 析 , 得 到 4 个 指数 ,分 别 是 : 言语 理解 指数 ,包括 常识 .类 同 、 
词汇 和 理解 4 个 分 测验 ;@ 知 觉 推理 指数 ,包括 填 图 .图 片 排列 ` 积 木 和 图 形 拼凑 4 个 分 测 
验 ;@ 工 作 记忆 指数 ,包括 算术 和 背 数 2 个 分 测验 ;@ 加 工 速度 指数 ,包括 译 码 和 符号 检索 2 
个 分 测验 。 

2. 韦 氏 儿童 智力 量 表 第 4 版 (WISC-N) 

WISC- 信 删除 了 WISC- 夺 中 的 图 形 拼 凑 、 图 片 排列 和 迷津 三 个 分 测验 ,其 余 10 个 分 测 
验 的 内 容 、 施 测 和 评分 程序 也 作出 了 一 些 修改 。 此 外 ,在 WISC- 焉 原 有 的 10 个 分 测验 的 基 
础 上 ,WISC- 信 添加 了 5 个 新 的 分 测验 ,分 别 是 言语 推理 .矩阵 推理 .图 画 概 念 、. 字 母 一 数字 
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排序 和 划 消 测验 。 其 中 ,常识 、 填 图 .言语 推理 .算术 和 划 消 是 备用 分 测验 。 与 WISC-III 
同 ,WISC-N 也 有 4 个 指数 ,分 别 是 : @ 言 语 理解 指数 ,包括 类 同 、 词 汇 、 理 解 三 个 核心 分 测验 
和 常识 备用 分 测验 ;加 知觉 推理 指数 ,包括 积木 .图 画 概念 ,矩阵 推理 三 个 核心 分 测验 和 填 
图 言语 推理 两 个 备用 分 测验 ;@ 工 作 记忆 指数 ,包括 背 数 .字母 一 数字 排序 两 个 核心 分 测验 
和 算术 备用 分 测验 ;@ 加 工 速度 指数 ,包括 译 码 、 符 号 检索 两 个 核心 分 测验 和 划 消 备用 分 
测验 。 

WISC- 信 适用 于 6 一 16 岁 的 儿童 , 常 模 的 每 个 年 龄 段 由 200 个 被 试 组 成 ,共有 2 200 个 
被 试 ,根据 年 龄 .性别 、 父 母 教育 水 平 . 种 族 和 地 区 分 层 抽样 获得 ,保证 了 样本 的 代表 性 。 

3. 书 氏 儿童 智力 量 表 第 4 版 中 文 版 (WISC-I 中 文 版 ) 

韦 氏 儿童 智力 量 表 第 4 版 中 文 版 由 张 厚 紧 于 2003 年 主持 修订 ,包括 14 个 分 测验 和 4 
个 指数 。 其 中 ,类 同 .词汇 、 理 解 和 常识 属于 言语 理解 指数 ;积木 \ 画 图 概念 ,矩阵 推理 和 填 图 
属于 知觉 推理 指数 ; 背 数 .字母 一 数字 排序 和 算术 属于 工作 记忆 指数 ; 译 码 、 符 号 检索 和 划 消 
属于 加 工 速度 指数 。 需 要 注意 的 是 ,常识 . 填 图 .算术 和 划 消 是 备用 分 测验 ,可 以 替代 各 自 指 
数 下 的 其 他 分 测验 。 接 下 来 介绍 这 14 个 分 测验 ,主要 内 容 如 下 。 

中 类 同 : 主 试 读 出 两 个 表示 常见 物体 或 概念 的 词 ,要求 儿童 说 出 它们 之 间 的 相似 之 处 。 

ORE: 一 是 图 片 测试 题 ,要 求 儿童 对 测试 题 本 上 呈现 的 图 片 进行 命名 ;二 是 字 词 测试 
题 ,要 求 儿童 解释 读 出 的 词 的 意思 。 

图 理解 :要 求 儿童 回答 一 些 与 自然 .人 际 关系 及 社会 活动 等 有 关 的 问题 ,此 分 测验 的 题 
型 有 两 种 : 一 是 “该 怎么 办 ”; 二 是 “为 什么 ”。 

图 常识 : 要 求 儿童 口头 回答 有 关 一 般 事 务 的 常识 问题 。 

ORK: 要 求 儿童 一 边 看 着 示范 模型 或 测试 题 本 上 的 图 案 , 一 边 使 用 红 白 相间 的 积木 ， 


在 规定 的 时 限 内 照样 拼 摆 出 图 案 。 

OPM BES: 要 求 儿 童 从 主 试 呈 现 的 2 排 或 3 排 图 片 中 ,每 排 选 出 1 张 ,组 成 一 组 具有 
共同 特征 的 图 画 。 

DOWER: 要 求 儿 童 先 看 一 个 不 完整 的 矩阵 图 ,再 从 5 个 备 选 答案 中 , 选 出 一 个 能 填 
补 其 缺少 部 分 的 图 形 。 

OHEA: 要 求 儿童 逐 题 看 每 一 张 图 片 , 并 在 规定 的 时 限 内 ,指出 或 说 出 图 片 中 所 缺少 的 
重要 部 分 。 


DFR, 包括 两 类 试题 : 一 是 顺序 背 数 题 ,要 求 儿 童 按照 正确 的 顺序 重复 主 试 读 出 的 
一 系列 数字 ;二 是 倒序 背 数 题 ,要 求 儿 童 按照 与 主 试 相反 的 顺序 重复 主 试 所 读 的 一 系列 
数字 。 

四 字母 一 数字 排序 : 主 试 读 出 一 组 含有 数字 和 英文 字母 的 序列 ,要 求 儿童 重组 后 按照 
由 小 到 大 的 数字 顺序 ,以 及 英文 字母 表 的 字母 顺序 依次 回忆 出 来 。 

DHR: 要 求 儿童 应 在 规定 的 时 间 内 ,根据 心算 回答 一 系列 口头 提问 的 算术 题 。 

DRB: 要 求 儿童 仿 画 简单 几何 图 形 或 者 与 数字 匹配 的 符号 。 也 就 是 说 ,儿童 要 在 规 
定 的 时 限 内 ,按照 范例 的 匹配 关系 ,在 对 应 的 图 形 或 方 格 内 画 上 正确 的 符号 。 

加 符号 检索 : 要 求 儿 童 在 规定 的 时 限 内 , 逐 题 审视 寻找 组 中 的 符号 ,并 选 答 目 标 组 的 符 
号 是 否 出 现在 寻找 组 中 。 

DRAH: 要 求 儿童 在 规定 的 时 限 内 ,分 别 观察 随机 排列 和 有 序 排列 的 两 大 张 图 片 ,并 从 
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其 中 的 许多 图 案 中 逐一 划 掉 规定 的 目标 图 案 。 

韦 氏 儿童 智力 量 表 第 4 版 中 文 版 适合 6 一 16 岁 儿 童 使 用 , 常 模 考 虑 了 年 龄 性别、 民族 
及 受 教育 情况 等 因素 。 各 个 分 量 表 的 平均 数 和 标准 差分 别 为 10 和 3, 离 差 智 商 IQ 的 平均 数 
和 标准 差分 别 为 100 和 15。 量 表 的 内 部 一 致 性 信 度 、 评 分 者 信 度 和 重 测 信 度 都 得 到 了 良好 
的 保证 。 内 容 效 度 、 结 构 效 度 和 内 部 相关 证 据 等 都 证 明了 量 表 具 有 良好 的 效 度 。 


三 、 考 夫 曙 儿童 成 套 评 价 测验 


曾 参 与 WISC-R 修订 工作 的 考 夫 曼 夫妇 (N.L. Kaufman & A. S. Kaufman) ,在 20 世纪 
80 年 代 开 发 了 考 夫 曼 儿童 成 套 评价 测验 (Kaufman Assessment Battery for Children. 
K-ABC) ,用 来 测试 儿童 的 认 知 能 力 ,适用 于 学 前 儿童 .未 成 年 人 及 智力 异常 儿童 。 

K-ABC 与 传统 的 智力 测验 的 差异 在 于 , 它 采 用 的 是 认 知 心理 学 的 理论 观点 , 即 人 类 信 
息 加 工 方式 ,包括 同时 性 加 工 和 继 时 性 加 工 两 种 方式 。K-ABC 由 两 种 分 量 表 组 成 ,分 别 是 
心理 加 工 量 表 和 成 就 量 表 。 其 中 ,心理 加 工 量 表 分 为 同时 性 加 工 量 表 和 继 时 性 加 工 量 表 。 
全 套 测 验 共 有 16 个 分 测验 ,其 中 同时 性 加 工 量 表 有 7 个 分 测验 , 继 时 性 加 工 量 表 有 3 个 分 
测验 ,成 就 量 表 有 6 个 分 测验 ,各 个 分 测验 与 分 量 表 的 对 应 关系 ,如 表 7-6 所 示 。 


表 7-6 考 夫 曼 儿 童 成 套 评 价 测验 分 测验 与 分 量 表 的 对 应 关系 
心理 加 工 量 表 


成 就 量 表 
同时 性 加 工 量 表 继 时 性 加 工 量 表 
魔术 窗户 手 部 动作 词汇 表达 
面孔 识别 数字 记忆 面貌 和 地 方 
完 形 闭合 语词 顺序 算术 
三 角形 解 谜 
图 形 分 类 阅读 / 译 码 
空间 记忆 阅读 /理解 


相片 系列 


K-ABC 的 适用 年 龄 范围 为 2 岁 半 到 12 岁 半 , 但 具体 的 分 量 表 的 适用 年 龄 并 不 一 致 。 
16 个 分 测验 的 简介 如 下 。 

1. 魔术 窗户 : 共有 15 个 项 目 , 适 用 年 龄 为 2 岁 半 到 4 岁 , 要 求 被 试 对 “窗户 ”后 缓慢 移 
动 的 东西 进行 辨认 。 

2. 面孔 识别 : 共有 15 个 项 目 , 适 用 年 龄 为 2 岁 半 到 4 岁 , 要 求 被 试 从 团体 照 中 识别 出 
主 试 展示 的 单 人 或 双人 照片 人 物 。 

3. 手 部 动作 : 共有 21 个 项 目 , 适 用 年 龄 为 2 岁 半 到 12 岁 半 , 要 求 被 试 模仿 主 试 示范 的 
长 短 不 一 的 手 部 动作 。 

4. 完 形 闭 合 : 共有 25 个 项 目 , 适 用 年 龄 为 2 岁 半 到 12 岁 半 , 要 求 被 试 对 部 分 完成 的 墨 
迹 图 片 进行 识别 。 

5. 数字 记忆 : 共有 19 个 项 目 , 适 用 年 龄 为 2 岁 半 到 12 岁 半 ,要 求 被 试 复述 读 取 长 短 不 
一 的 数字 序列 。 
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6. 三 角形 : 共有 18 个 项 目 ,适用 年 龄 为 4 岁 到 12 岁 半 ,要求 被 试用 大 小 .颜色 完全 相 
同 的 三 角形 小 板 , 对 主 试 提 供 的 图 案 进行 拼凑 。 

7. 语词 顺序 : 共有 20 个 项 目 ,适用 年 龄 为 4 岁 到 12 岁 半 ,要 求 被 试 从 一 系列 图 画 中 ， 
辨别 出 主 试 读 出 的 数量 为 1 到 5 个 不 等 的 语词 系列 所 代表 的 事物 。 

8. 图 形 分 类 : 共有 20 个 项 目 , 适 用 年 龄 为 5 岁 到 12 岁 半 ,要 求 被 试 从 一 组 图 画 或 图 形 
中 , 选 出 合适 的 图 画 或 图 形 来 完成 另 一 组 视觉 分 类 图 案 。 

9. 空间 记忆 : 共有 21 个 项 目 ,适用 年 龄 为 5 岁 到 12 岁 半 ,要求 被 试 在 空白 绘 格 纸 中 ， 
指出 主 试 所 展示 的 图 片 的 正确 位 置 。 

10. 相片 系列 : 共有 17 个 项 目 , 适 用 年 龄 为 6 岁 到 12 岁 半 ,要 求 被 试 将 打 乱 顺序 的 图 
片 以 事件 发 生 的 时 间 顺 序 排列 好 。 

11. 词汇 表达 : 共有 24 个 项 目 ,适用 年 龄 为 2 岁 半 到 4 岁 ,要 求 被 试 说 出 图 片上 的 事物 
名 称 。 

12. 面貌 和 地 方 : 共有 35 个 项 目 , 适 用 年 龄 为 2 岁 半 到 12 岁 半 , 要 求 被 试 识别 印 有 知 
名 人 物 、 漫 画 人 物 或 名 胜 区 的 照片 。 

13, 算术 : 共有 38 个 项 目 ,适用 年 龄 为 3 岁 到 12 岁 半 , 要 求 被 试 在 图 片 刺激 下 ,心算 出 
主 试 提出 的 算术 问题 。 

14. RPE: 共有 32 个 项 目 ,适用 年 龄 为 3 岁 到 12 岁 半 , 要 求 被 试 根据 特征 描述 推断 出 
人 .、 事 、 物 或 抽象 名 词 的 名 称 。 

15. 阅读 / 译 码 : 共有 38 个 项 目 , 适 用 年 龄 为 5 岁 到 12 岁 半 ,要 求 被 试 念 出 不 同 的 字母 
或 语词 。 

16. 阅读 /理解 : 共有 24 个 项 目 , 适 用 年 龄 为 7 岁 到 12 岁 半 ,要 求 被 试 阅读 一 些 单词 和 
句子 ,并 做 出 这 些 内 容 所 描述 的 动作 。 


第 三 节 ”团体 智力 测验 


团体 智力 测验 是 指 一 名 主 试 可 以 同时 对 多 名 被 试 进行 施 测 的 智力 测验 。 与 个 别 智力 测 
验 相 比 ,团体 智力 测验 具有 经 济 、 省 时 的 优点 ,对 主 试 的 要 求 不 高 。 但 是 ,团体 智力 测验 中 的 
主 试 无 法 对 每 一 名 被 试 进行 观察 ,因此 会 失去 很 多 有 价值 的 信息 ,如 被 试 的 情绪 、 反 应 、 动 作 
等 ,导致 团体 智力 测验 在 准确 性 上 比 个 别 智力 测验 差 。 常 见 的 团体 智力 测验 有 陆军 甲 种 和 
乙 种 测验 、 瑞 文 推理 测验 和 认 知 能 力 测验 等 。 


一 、 陆 军 甲 种 和 己 种 测验 


第 一 次 世界 大 战 期 间 ,为 了 高 效 甄 选 合适 的 应 征 入伍 者 ,美国 心理 学 会 主席 耶 克 斯 和 桑 
代 克 、 推 重 等 著名 的 心理 学 家 提出 ,用 测验 来 招募 士兵 。 然 而 ,对 于 战争 时 期 来 说 ,这 项 任务 
是 非常 紧迫 的 ,但 常用 的 个 别 智力 测验 要 耗费 大 量 的 时 间 , 并 不 能 满足 战 时 的 需要 。 因 此 ， 
推 孟 的 学 生 奥 提 斯 (A. S. Otis) 在 自己 编制 的 团体 智力 测验 基础 上 ,先后 编制 了 陆军 甲 种 和 
乙 种 测验 。 其 中 ,陆军 甲 种 测验 要 求 被 试 有 一 定 文化 水 平 .母语 为 英语 ,而 陆军 乙 种 测验 则 
是 为 文化 水 平 较 低 或 母语 为 非 英 语 的 被 试 准备 的 。 有 近 200 万 新 兵 测试 了 陆军 甲 种 或 乙 种 
测验 。 正 是 陆军 甲 种 和 乙 种 测验 的 广泛 使 用 ,使 团体 智力 测验 迅速 发 展 起 来 。 


134 


口 


oe: wee MEE 


陆军 甲 种 测验 为 文字 测验 ,由 8 个 分 测验 组 成 ,包括 指导 、 算 术 、 常 识 . 异 同 、 字 句 重组 、 
填 数 类比 和 句子 填空 等 分 测验 。 

陆军 乙 种 测验 为 非 文 字 测 验 , 由 7 个 分 测验 组 成 ,包括 迷津 ,立方 体 分 析 、 数 字符 号 / 译 
码 、 补 是 数列 、 数 字 校 对 、 图 画 补缺 和 几何 图 形 分 析 等 分 测验 。 

陆军 甲 种 测验 的 得 分 与 军官 评定 成 绩 的 相关 为 0. 50 一 0.70, 与 斯 坦 福 一 比 内 智力 量 表 
的 相关 为 0. 80 一 0. 90, 与 教师 评定 的 相关 为 0. 67 一 0. 82 ,与 学 业 成 绩 的 相关 为 0. 50 一 0. 60。 
由 此 可 见 ,陆军 甲 种 测验 具有 一 定 的 实证 效 度 。 而 陆军 乙 种 测验 与 陆军 甲 种 测验 的 相关 达 
到 0. 80, 这 也 能 够 说 明 陆军 乙 种 测验 也 具有 一 定 的 实证 效 度 。 


二 、 瑞 文 推理 测验 


(一 ) 瑞 文 推理 测验 的 发 展 

瑞 文 推理 测验 (Raven's Progressive Matrices, RPM) 是 由 英国 心理 学 家 瑞 文 (J. C. 
Raven) 于 1938 年 开发 编制 的 一 套 非 文 字 团体 智力 测验 ,也 称 瑞 文 渐进 测验 。 瑞 文 推理 测验 
的 理论 依据 是 斯 皮尔 曼 的 智力 二 因素 论 。 

最 早 的 瑞 文 推理 测验 是 1938 年 发 表 的 瑞 文 标准 推理 测验 (Raven's Standard 
Progressive Matrices. SPM) ,适用 于 5. 5 岁 以 上 的 儿童 和 成 人 使 用 ,属于 中 等 水 平 的 瑞 文 推 
理 测验 。 瑞 文 标准 推理 测验 共有 60 个 项 目 ,分 5 个 部 分 ,分 别 是 A,B,C,D 和 EE 组 ,每 个 组 
由 12 个 项 目 组 成 。 例 如 , 瑞 文 标准 推理 测验 第 4 组 的 第 11 个 项 目 是 Di ,如 图 7-7 所 示 。 
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图 7-7 瑞 文 标准 推理 测验 的 Du 项 目 


1941 年 , 瑞 文 又 编制 了 瑞 文 高 级 推理 测验 (Raven's Advanced Progressive Matrices. 
APM) ,后 分 别 在 1947 年 和 1962 年 进行 了 修订 。 这 个 测验 适用 于 智力 高 于 平均 水 平 的 人 使 
用 ,属于 最 高 水 平 的 瑞 文 推理 测验 。 瑞 文 高 级 推理 测验 共有 48 个 项 目 , 由 两 个 部 分 组 成 ,分 
别 有 12 个 项 目 和 36 个 项 目 ,可 对 瑞 文 标准 推理 测验 得 分 高 于 55 分 的 被 试 进行 更 精细 的 
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划分 。 

1947 年 , 瑞 文 还 编制 了 适用 于 5. 5 岁 到 11. 5 岁 的 儿童 和 低 智力 成 人 被 试 的 瑞 文 彩色 推 
理 测 验 (Raven's Colour Progressive Matrices, CPM) ,属于 瑞 文 推理 测验 中 的 最 低 水 平 测 
验 , 由 3 个 部 分 组 成 ,共有 36 个 项 目 。 

(=) 瑞 文 推理 测验 在 中 国 的 发 展 

1985 年 ,我国 张 厚 委 等 人 将 瑞 文 推理 测验 引入 中 国 ,出 版 了 瑞 文 标准 推理 测验 中 国 城 
市 修订 版 。1989 年 , 李 丹 、 王 栋 等 人 完成 了 彩色 型 和 标准 型 的 合并 本 ,出 版 了 联合 型 瑞 文 测 
验 (Combined Raven’s Test,CRT) 中 国 修订 版 ,并 制定 了 中 国 成 人 ,中 国 城市 儿童 ,中国 农村 
儿童 三 个 常 模 。 这 些 常 模 团体 都 是 根据 人 口 普查 的 结果 ,在 全 国 的 大 .中 、 小 城市 进行 取样 ， 
并 按 性 别 .文化 .职业 等 人 口 比例 分 配 。 

CRT 由 6 个 部 分 组 成 ,共有 72 个 项 目 ,其 中 前 3 个 部 分 是 彩 图 ,后 3 个 部 分 是 黑白 图 
案 ,每 个 部 分 各 有 12 个 项 目 。 该 测验 适合 5 岁 到 75 岁 的 被 试 使 用 ,也 适合 于 言语 有 障碍 的 
个 体 , 既 可 用 于 团体 施 测 ,也 可 用 于 个 别 施 测 。CRT 的 分 半 信 度 为 0. 95, 重 测 信 度 在 0. 79 
到 0. 82 之 间 ,与 WISC-CR 的 分 量 表 和 全 量 表 的 相关 系数 在 0.54 到 0. 71 之 间 ,与 高 考 成 绩 
的 相关 为 0. 45, 表 明 其 具有 一 定 的 信 效 度 。 


三 、 认 知 能 力 测 验 


认 知 能 力 测验 (Cognitive Abilities Test,CogAT) 是 由 美国 心理 学 家 桑 代 克 等 人 在 20 
世纪 70 年 代 前 后 编制 完成 的 ,测量 的 是 被 试 的 一 般 抽 象 思考 能 力 。 该 测验 的 最 新 版 本 是 
2001 年 发 布 的 认 知 能 力 测验 6 型 , 即 CogAT Form6。 

认 知 能 力 测验 包括 3 个 分 量 表 , 分 别 是 : 

(1) 言语 分 量 表 。 包 含 3 个 分 测验 ,分 别 是 语言 分 类 、 句 子 完成 和 言语 类 别 。 

(2) 数量 分 量 表 。 包 含 3 个 分 测验 ,分 别 是 数量 关系 .数字 序列 和 等 式 建立 。 

(3) 非 言语 分 量 表 。 包 含 3 个 分 测验 ,分 别 是 图 形 分 类 、 图 形 类 比 和 图 形 分 析 。 

各 分 测验 的 项 目 均 是 由 易 到 难 排 列 , 除 了 图 形 分 析 采 用 判断 题 的 形式 外 ,其 他 分 测验 都 
采用 选择 题 的 形式 。 

认 知 能 力 测验 结果 以 离 差 智 商 、 百 分 等 级 和 标准 九 分 数 表 示 。 认 知 能 力 测验 的 各 分 量 
表 的 重 测 信 度 在 0.72 到 0. 95 之 间 。 认 知 能 力 测验 对 学 业 成 绩 、 工 作成 就 有 相当 的 预测 能 
力 , 在 国外 使 用 十 分 广泛 ,但 在 国内 仍 处 于 初步 使 用 阶段 。 


第 四 节 ”智力 测验 的 理论 问题 


一 、 智 力 发 展 的 影响 因素 : 遗传 和 环境 


对 智力 发 展 影响 因素 的 研究 ,历史 上 曾 存 在 着 两 种 截然 对 立 的 观点 : 一 种 是 遗传 决定 
论 ; 另 一 种 是 环境 决定 论 。1869 年 ,遗传 决定 论 的 鼻祖 高 尔 顿 曾 在 (天 才 的 遗传 ) 中 写 道 : 
“一 个 人 的 能 力 乃 由 遗传 得 来 ,其 受 遗 传 决定 的 程度 如 同 机 体 的 形态 和 组 织 之 受 遗 传 决定 一 
样 ,” 他 从 大 量 的 名 人 传记 和 家 谱 考 察 中 ,得 出 名 人 家 族 中 出 名 人 的 比率 大 大 超过 一 般 人 的 
比率 ,从 而 认为 这 就 是 能 力 受 遗传 决定 的 证 据 。 环 境 决 定论 的 主要 代表 人 物 是 华 生 。1925 


口 


Ste ”智力 测验 一 二 = 一 


年 , 华 生 在 其 著作 《行为 主义 ) 中 有 一 个 著名 的 论点 , 即 “ 给 我 一 打 健 全 的 婴儿 ,并 在 我 自己 的 
特殊 天 地 里 培养 他 们 成 长 ,我 保证 他 们 中 任何 一 个 都 能 训练 成 我 所 选择 的 任何 一 类 人 : 医 
生 、 律 师 、 艺 术 家 或 巨商 ,甚至 乞丐 和 小 偷 ,无 论 他 的 天 资 、 爱 好 、 脾 气 以 及 他 祖先 的 才能 、 职 
业 和 种 族 如 何 .” 这 两 种 观点 都 存在 一 定 的 片面 性 ,目前 大 部 分 人 都 赞同 遗传 和 环境 相互 作 
用 的 观点 。 它 的 基本 思想 是 : O 两 种 因素 相互 依存 ,任何 一 种 因素 作用 的 大 小 ,性 质 都 依赖 
于 另 一 种 因素 ,它们 之 间 不 是 简单 的 相 加 或 汇合 ;@) 两 种 因素 相互 渗透 和 相互 转化 ,当前 对 
环境 刺激 作出 某 种 行为 反应 的 有 机 体 是 它 的 基因 和 过 去 环境 相互 作用 的 产物 。 

为 了 和 弄 清 智力 发 展 的 影响 因素 ,一般 采用 同 卵 和 异 卵 两 类 双生 子 进行 遗传 和 环境 作用 的 
对 比 研究 ,其 基本 假设 是 : 同 卵 双生 子 同 出 于 一 个 基因 型 .其 差异 归 因 于 环境 的 影响 ;而 异 卵 双 
生子 的 差异 既 包括 遗传 方面 的 ,也 包括 环境 方面 的 。 当 双生 子 在 一 起 抚养 的 条 件 下 ,理论 上 可 
以 假设 他 们 的 环境 是 相同 的 ,其 行为 的 差异 可 以 归 因 为 遗传 因子 的 效应 。 很 多 证 据 表 明 ,遗传 
和 环境 对 智力 的 影响 各 占 50%。 


二 、 智 力 测验 的 公平 性 


智力 测验 的 根本 目的 是 评估 被 试 的 智力 差异 ,因而 它 必须 首先 保证 客观 公正 ,也 就 是 说 
其 测验 的 项 目 必 须 对 所 有 参加 测试 的 人 是 公平 的 。 传 统 的 智力 测验 是 否 能 做 到 这 一 点 呢 ? 
我 们 可 以 从 以 下 几 个 方面 来 分 析 。 

(一 ) 性 别 公平 性 

人 们 对 智力 性 别 差异 的 长 期 研究 发 现 , 就 整体 而 言 .男女 两 性 在 智力 上 并 不 存在 显著 性 
的 差异 。 但 是 ,在 智力 的 具体 能 力 因 素 上 却 发 现 ,男性 在 数学 推理 、 视 觉 空间 能 力 、 身 体 运 动 
速度 和 协调 性 等 方面 优 于 女性 ,而 女性 在 言语 流畅 性 、 言 语 理解 和 记忆 等 方面 优 于 男性 。 这 
种 性 别 的 差异 性 ,就 要 求 智力 测验 开发 者 分 别 为 男性 和 女性 设计 不 同 的 常 模 ,或 者 各 设计 一 
半 有 利于 男性 、 另 一 半 有 利于 女性 的 项 目 ,以 实现 平衡 ,或 尽量 避免 编制 有 偏 的 测验 。 但 这 
些 做 法 对 全 面 了 解 人 的 智力 状况 并 不 是 很 有 利 ,传统 的 智力 测验 也 并 未 这 样 做 。 能 不 能 做 
到 编制 出 的 每 个 测验 项 目 本 身 就 没有 男女 性 别 差异 上 的 偏向 呢 ? 实际 上 ,要 做 到 这 点 很 难 。 
所 以 ,传统 的 智力 测验 的 性 别 公 平 性 就 确实 可 能 存在 问题 。 比 较 现实 的 做 法 可 能 还 是 为 男 
性 和 女性 分 别 建立 各 自 的 常 模 。 

(二 ) 职业 公平 性 

人 们 对 不 同 职 业 人 群 进行 智力 研究 发 现 .不 同 职 业 人 群 的 智商 存在 显著 性 的 差异 。 一 
般 来 说 ,脑力 劳动 者 的 智商 相对 比 体 力 劳动 者 的 智商 高 .如 会 计 师 ,律师 、 工 程 师 的 智商 相对 
较 高 ,而 工人 ,农民 的 智商 相对 较 低 。 这 种 职业 差异 曾经 被 剥 前 阶级 利用 ,认为 工人 、 农 民 天 
生 轧 笨 , 从 而 为 其 剥 前 进行 辩护 。 实 际 上 ,不 同 职业 人 群 智力 差异 造成 的 原因 既 有 遗传 方面 
的 ,也 有 环境 方面 的 , 剥 前 阶级 过 分 强调 了 职业 的 遗传 差异 ,而 忽视 了 环境 的 不 同 。 同 时 ,这 
种 差异 也 可 能 反映 了 传统 的 智力 测验 理论 的 不 足 。 传 统 的 智力 测验 理论 过 分 强调 言语 方面 
的 能 力 和 单一 的 G 因素 ,而 忽视 了 对 一 个 人 作 多 重 智 力 的 分 析 。 工 人 ,农民 在 学 术 领 域 ( 传 
统 的 智力 测验 反映 的 方面 ) 可 能 不 如 脑力 劳动 者 .但 在 其 他 领域 可 能 远 远 超过 他 们 。 

(三 ) 文化 与 教育 公平 性 

大 量 的 传统 的 智力 测验 结果 表明 ,智力 测验 分 数 存 在 显著 性 的 城乡 差异 和 种 族 差 异 , 城 
市 儿童 和 白人 儿童 得 分 普遍 高 于 农村 儿童 和 黑人 儿童 。 然 而 ,这 种 差异 并 不 表明 农村 儿童 
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和 黑人 儿童 在 遗传 素质 上 较 差 ,而 很 有 可 能 是 文化 与 教育 因素 的 差异 引起 的 。 由 于 城市 儿 
童 和 白人 儿童 一 般 生 活 在 浓厚 的 文化 氛围 中 ,并 且 其 家 庭 的 社会 经 济 状 况 普 遍 足 以 为 其 提 
供 较 好 的 教育 ,而 传统 的 智力 测验 项 目 大 多 数 是 采用 学 校 知 识 经 验 编制 的 ,因而 他 们 的 得 分 
很 可 能 较 农 村 儿童 和 黑人 儿童 的 得 分 高 。 一 些 研 究 者 通过 人 为 改变 某 些 黑人 儿童 的 生活 环 
境 , 给 予 他 们 较 好 的 教育 和 一 定 的 文化 更 陶 ,结果 发 现 他 们 的 智力 得 分 明显 上 升 。 

传统 的 智力 测验 受 文化 经 验 的 影响 ,一 些 研究 者 试图 排除 这 种 影响 ,编制 出 与 文化 无 关 
的 测验 ,然而 对 人 类 来 说 ,文化 几乎 渗透 到 环境 的 所 有 和 领域。 因为 个 体 的 所 有 行为 都 受到 生 
活 于 其 中 的 文化 环境 的 影响 ,也 因为 心理 测验 只 测量 行为 的 样本 ,所 以 文化 的 影响 会 反映 在 
测验 成 绩 中 。 因 此 ,设计 一 种 完全 不 受 文化 影响 的 测验 是 不 切实 际 的 。 后 来 ,一 些 研究 者 试 
图 建构 一 种 以 不 同文 化 中 所 共有 经 验 为 前 提 的 文化 公平 测验 ,如 卡特 尔 等 人 1949 年 编制 的 
文化 公平 智力 测验 。 然 而 ,这 也 是 很 难 办 到 的 ,因为 对 文化 公平 的 理解 会 受到 所 处 文化 情境 
的 制约 ,不 同 的 人 编制 的 文化 公平 测验 是 对 不 同文 化 公平 的 某 种 认识 ,如 有 的 人 认为 文化 公 
平 测验 是 非 阅读 测验 ,而 另 一 些 人 则 认为 是 操作 测验 。 而 且 ,任何 测验 对 于 一 种 以 上 文化 的 
群体 ,尤其 是 当 这 些 群 体 文化 差异 较 大 时 , 它 不 可 能 是 同样 公平 的 。 因 此 ,目前 测验 编制 者 
把 重点 转移 到 对 测验 情境 中 施 测 者 公平 性 的 考察 之 上 。 他 们 认为 , 施 测 者 在 跨 文化 测验 中 
应 该 做 到 以 下 几 个 方面 。 

第 一 ,在 测验 的 开始 阶段 ,应 充分 获得 有 关 文 化 认同 类 型 .文化 认同 程度 、 最 初 文化 特征 
等 方面 的 信息 ,这 些 信息 可 能 会 对 个 体 测验 成 绩 产 生 影 响 。 

第 二 , 施 测 者 的 行为 需 适 应 被 试 的 需要 。 施 测 者 必须 考虑 如 何 介绍 测验 、 如 何 解释 测验 
的 目的 ,以 及 如 何 激励 被 试 进行 适当 的 操作 等 。 而 且 , 施 测 者 自身 要 与 被 试 建立 起 良好 的 人 
际 关系 。 特 别 地 ,测验 分 数 的 解释 和 使 用 ,应 该 明显 地 考虑 到 文化 因素 的 影响 ,还 应 该 考虑 
到 反馈 的 性 质 和 反馈 对 象 的 特点 。 


三 、 智 力 测验 的 预测 性 


(一 ) 婴 幼儿 智力 测验 的 预测 性 

智力 测验 的 目的 之 一 是 预测 被 试 在 未 来 智力 活动 中 的 表现 ,这 实际 上 涉及 智力 测验 的 
预测 效 度 问题 。 幼 儿 测 验 一 一 尤其 是 3 岁 以 后 施 测 一 一 对 以 后 的 智力 测验 成 绩 具有 中 等 的 
预测 效 度 。 但 是 ,婴儿 测验 的 预测 效 度 却 比较 低 . 这 主要 是 因为 智力 的 性 质 和 成 分 会 随 着 年 
龄 的 增长 而 发 生变 化 ,婴儿 期 的 智力 与 幼儿 期 的 智力 有 着 质 的 不 同 ,包含 了 不 同 的 能 力 
组 合 。 

(二 ) 成 人 智力 测验 的 预测 性 

传统 的 韦 氏 智力 量 表 横 向 研究 发 现 , 成 人 智力 在 20 一 34 岁 时 达到 高 峰 , 其 后 在 年 长 纪 
中 稳定 下 降 。 一 些 追 踪 研 究 表明 ,大 多 数 机 能 的 年 龄 衰减 现象 开始 较 晚 ,其 趋势 比 传统 的 韦 
氏 智 力量 表 横 向 研究 所 显示 的 要 平缓 一 些 。 对 成 人 智力 测验 分 数 个 体 差异 的 研究 发 现 , 任 
何 一 个 年 龄 水 平 内 的 个 体 差异 要 比 年 龄 水 平 间 的 平均 差异 要 大 得 多 ,这 意味 着 有 大 量 年 长 
者 的 成 绩 等 于 甚至 大 于 某 些 年 轻 人 的 成 绩 。 

上 述 分 数 发 生变 化 的 主要 原因 是 ,传统 的 智力 测验 编制 者 在 编制 智力 测验 时 主要 定位 
于 儿童 和 大 学 生 ,测量 的 是 个 体 获 得 学 校 所 传授 的 智力 技能 的 程度 ,利用 的 是 那些 在 课堂 学 
习 中 获得 的 共同 经 验 , 而 这 些 正 规 的 教育 经 验 会 随 着 个 体 年 龄 的 增长 而 逐渐 消退 ,从 而 导致 
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年 长 者 在 该 类 智力 测验 上 得 分 较 低 。 然 而 ,这 些 共同 经 验 不 适合 用 来 评价 成 年 人 的 智力 , 因 
为 成 年 人 的 职业 比 学 龄 期 的 学 校 教育 更 为 多 样 ,成 年 期 的 累积 经 验 可 能 会 刺激 人 们 发 展 不 
同 的 能 力 。 一 些 强调 实践 知识 .判断 和 社会 知觉 的 研究 表明 ,在 这 些 测验 的 成 绩 上 年 长 者 优 
于 年 轻 人 ,而 在 传统 的 智力 测验 上 的 成 绩 却 恰好 相反 。 

所 有 这 些 类 型 的 研究 都 表明 ,成 年 期 智力 测验 分 数 随 年 龄 增长 是 上 升 还 是 下 降 , 主 要 依 
赖 于 个 体 在 这 些 年 龄 内 所 拥有 的 经 验 ,也 依赖 于 这 些 经 验 与 测验 所 包括 的 功能 之 间 的 关系 。 
照 此 看 来 ,成 人 智力 测验 的 结果 只 有 置 于 具体 的 情境 中 ,才能 更 好 地 被 预测 。 


智力 的 实质 究竟 是 什么 ?这 是 很 久 以 来 智力 研究 者 们 关注 的 焦点 。 智 力 测验 昌 已 有 近 
百年 的 历史 ,但 对 这 一 问题 至 今 仍 是 百家争鸣 ,没有 定论 。 其 中 ,基于 因素 分 析 、 因 素 分 析 与 
信息 加 工整 合 、 神 经 心理 学 的 三 类 研究 最 富 影响 力 和 竞争 力 。 智 力 测验 是 用 来 测量 智力 的 ， 
不 同 的 学 者 对 智力 结构 的 理解 不 同 , 从 而 导致 不 同 的 智力 测验 理论 的 产生 。 然 而 ,不 同 的 智 
力 测验 理论 又 产生 了 不 同 的 智力 测验 。 智 力 测验 分 为 个 别 智力 测验 和 团体 智力 测验 。 个 别 
智力 测验 主要 包括 比 内 智力 量 表 、 韦 氏 智力 量 表 和 考 夫 曙 儿童 成 套 评 价 测验 等 。 团 体 智 力 
测验 主要 包括 陆军 甲 种 和 乙 种 测验 、 瑞 文 推理 测验 和 认 知 能 力 测验 等 。 智 力 受 到 遗传 和 环 
境 的 双重 影响 ,智力 测验 分 数 的 解释 要 结合 被 试 的 遗传 特征 、 被 试 测验 前 的 学 习 与 经 验 以 及 
测验 时 的 情境 等 因素 来 进行 ,以 保证 智力 测验 的 公平 性 。 传 统 的 智力 测验 项 目 主要 以 学 校 
学 习 经 验 为 基础 ,不 太 适 合 对 成 人 智力 进行 测量 。 同 时 , 婴 幼 儿 智力 发 展 除了 有 量 的 变化 
外 ,也 存在 质 的 不 同 , 因 而 对 他 们 进行 测验 所 得 的 分 数 并 不 能 很 好 地 预测 其 将 来 的 智力 发 
展 。 总 之 ,从 广义 的 角度 看 ,所 有 智力 测验 结果 只 有 在 具体 情境 的 框架 中 ,才能 更 好 地 被 
理解 。 

本 章 主要 前述 了 各 种 智力 测验 理论 .各 种 智力 测验 以 及 智力 测验 的 理论 问题 。 本 章 的 
重点 是 智力 测验 概述 ,难点 是 个 别 智 力 测验 。 本 章 的 中 心 概念 是 “智力 测验 ”。 


一 、 选 择 题 (不 定 项 选择 题 , 至 少 有 一 个 选项 是 正确 的 ) 


1. 比率 智商 是 指 ( ) 
A. 心理 年 龄 与 实际 年 龄 之 比 B. 实际 年 龄 与 心理 年 龄 之 比 
C. 心理 年 龄 与 实际 年 龄 之 差 D. 实际 年 龄 与 心理 年 龄 之 差 

2. 比率 智商 的 计算 公式 是 ( 
A. (MA/CA) X 100 B. CA/MAX 100 
C. MA/CA D. CA/MA 

3. 最 早 对 智力 进行 系统 性 研究 的 人 是 ( ) 
A. 高 尔 顿 B. 比 内 C. 韦 克 斯 勒 D. 桑 代 克 

4. 世界 上 第 一 个 正式 的 智力 测验 工具 是 É ) 
A. 韦 氏 智力 量 表 B. 比 内 一 西蒙 智力 量 表 


C. 陆军 甲 种 和 乙 种 测验 D. 瑞 文 推理 测验 
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5. 最 早 启 用 了 智力 年 龄 来 表示 被 试 智力 的 相对 水 平 高 低 的 量 表 是 ( ) 
A. 1905 年 比 内 一 西蒙 智力 量 表 
B. 1908 年 比 内 一 西蒙 智力 量 表 
C. 1916 年 斯 坦 福 一 比 内 智力 量 表 
D. 1960 年 斯 坦 福 一 比 内 智力 量 表 
6. 最 早 采用 智商 来 表示 被 试 智力 的 相对 水 平 高 低 的 量 表 是 《 ) 
A. 1905 年 比 内 一 西蒙 智力 量 表 
B. 1908 年 比 内 一 西蒙 智力 量 表 
C. 1916 年 斯 坦 福 一 比 内 智力 量 表 
D. 1960 年 斯 坦 福 一 比 内 智力 量 表 
7. 1960 年 斯 坦 福 一 比 内 智力 量 表 中 智商 分 数 的 标准 差 是 ) 


A. 12 B; 15 C. 16 D. 14 

8. 韦 克 斯 勒 认为 智力 等 级 为 超常 的 智商 分 数 范围 是 € 9 
A. 90~109 B.. 110~119 C.. 120~129 D. 130 及 以 上 

9. 斯 坦 福 一 比 内 智力 量 表 第 4 版 是 依据 哪个 智力 测验 理论 ? < 
A. 智力 层次 论 B. 智力 三 层次 认 知 能 力 结构 模型 
C. 智力 三 层次 结构 论 D. 智力 三 维 结构 模型 

10. 韦 氏 成 人 智力 量 表 第 3 版 分 测验 的 个 数 是 ó J 
A. 11 B: 13 C. 14 D. 10 


11. 一 位 刚好 14 岁 的 儿童 在 斯 坦 福 一 比 内 智力 量 表 上 所 得 的 心理 年 龄 为 15 岁 , 另 一 位 
刚好 4 岁 的 儿童 在 斯 坦 福 一 比 内 智力 量 表 上 所 得 的 心理 年 龄 为 5 岁 , 请 问 哪个 儿童 的 智商 
相对 更 高 ? ( ) 

A. 14 岁 儿 童 更 高 B. 4 岁 儿 童 更 高 C. 一 样 高 D. 无 法 比较 

12. 适合 于 5 岁 至 75 岁 以 内 的 儿童 和 成 人 ,也 适合 于 言语 有 障碍 的 个 体 的 瑞 文 测验 是 

£ ) 


A. SPM B. CPM C. APM D. CRT 
13. 智力 的 性 别 差异 研究 发 现 ,女性 在 下 列 哪 项 上 不 优 于 男性 ? ( ) 
A. 言语 流畅 性 B. 言语 理解 C. 记忆 D. 视觉 空间 能 力 


14. 关于 智力 职业 公平 性 的 说 法 错误 的 是 č 4 
A. 一 般 来 说 ,脑力 劳动 者 在 传统 的 智力 测验 上 的 智商 相对 比 体力 劳动 者 的 智商 高 
B. 不 同 职业 人 群 智力 差异 造成 的 原因 既 有 遗传 方面 的 ,也 有 环境 方面 的 
C. 不 同 职业 人 和 群 智力 差异 也 可 能 反映 了 传统 的 智力 测验 理论 的 不 足 
D. 不 同 职业 人 群 智力 差异 说 明了 工人 农民 天 生 愚笨 
15. 关于 智力 文化 与 教育 公平 性 的 说 法 错误 的 是 ©) 
A. 城市 儿童 和 白人 儿童 在 传统 的 智力 测验 上 的 智商 得 分 普遍 高 于 农村 儿童 和 黑人 
儿童 

B. 农村 儿童 和 黑人 儿童 智商 分 数 低 , 说 明 他 们 天 生 愚笨 

C. 农村 儿童 和 黑人 儿童 智商 分 数 低 , 并 不 表明 他 们 在 遗传 素质 上 较 差 ,而 很 有 可 能 
是 文化 与 教育 因素 的 差异 引起 的 
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D. 设计 一 种 完全 不 受 文化 影响 的 测验 是 不 切实 际 的 


16. 关于 中 国 比 内 测验 ,下 列 说 法 正确 的 是 c -3 
A. 适用 于 2 一 18 岁 的 被 试 B. 每 岁 三 个 项 目 , 共 51 个 项 目 
C. 各 项 目 难度 随机 排列 D. 每 通过 一 个 项 目 记 一 分 

17. WAIS- 幅 操作 量 表 包括 哪 几 个 备用 分 测验 ? c $ 
AL 数字 符号 / 译 码 B. 符号 寻找 
C. 矩阵 推理 D. 图 形 拼凑 

18. 对 WISC- 肯 进行 因素 分 析 得 到 了 哪儿 个 指数 ? ( ) 
A. 工作 记忆 指数 B. 知觉 推理 指数 
C. 加 工 速度 指数 D. 言语 理解 指数 

19. K-ABC 继 时 性 加 工 量 表 包括 哪些 分 测验 ? © 3 


A. 手 部 动作 B. 数字 记忆 C. 空间 记忆 D. 语词 顺序 
20. 下 列 哪些 智力 测验 是 团体 测验 ? ( ) 
A. 瑞 文 推理 测验 B. 陆军 甲 种 和 乙 种 测验 
C. 斯 坦 福 一 比 内 智力 量 表 D. 韦 氏 智力 量 表 
21. 离 差 智商 的 计算 公式 为 IQ 二 100 十 15(Y 一 了 )/SD, 下 列 说 法 正确 的 是 ( ) 
A. Y 为 某 被 试 的 言语 量 表 分 或 操作 量 表 分 或 总 量 表 分 
B. 为 该 被 试 所 在 年 龄 组 的 言语 量 表 分 或 操作 量 表 分 或 总 量 表 分 的 平均 数 
C. SD 为 该 被 试 所 在 年 龄 组 的 言语 量 表 分 或 操作 量 表 分 或 总 量 表 分 的 标准 差 
D. (Y—Y)/SD 是 z 分 数 
、 简 答题 
. 简 述 吉尔 福 德 的 智力 三 维 结构 模型 。 
. 简 述 加 德 纳 的 智力 多 元 论 。 
. 简 述 斯 膝 伯 格 的 智力 三 因素 论 。 
. 简 述 戴 斯 等 人 的 智力 PASS 模型 。 
. 简 述 韦 氏 成 人 智力 量 表 中 国 修订 版 和 韦 氏 儿童 智力 量 表 第 4 版 中 文 版 的 结构 。 
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BAE 人 格 测 验 


人 格 测验 是 心理 测验 的 一 个 重要 组 成 部 分 , 它 对 于 在 较 短 时 间 内 全 面 准确 地 了 解 一 
个 人 的 人 格 特征 ,进行 因材施教 ,心理 异常 诊断 ,以 及 人 员 选 拔 与 任用 ,都 具有 重要 的 参考 
意义 。 人 格 测验 往往 是 测量 性 格 、 气 质 、 情 绪 状 态 、 人 际 关系 、 动 机 、 兴 趣 、 态 度 等 心理 特质 
的 工具 。 与 能 力 测验 相 比 ,人 格 测验 的 编制 、 实 施 、 评 分 和 解释 可 能 面临 着 更 大 的 挑战 。 
继 伍德 沃 斯 (R. S. Woodworth) 在 第 一 次 世界 大 战 时 期 编制 了 第 一 份 人 格 问卷 以 来 ,人 格 
测验 得 到 了 广泛 发 展 , 且 技 术 也 在 不 断 改进 。 目 前 ,可 供 使 用 的 人 格 测验 已 达到 数 百 种 ， 
但 大 致 可 分 为 两 类 : 自 陈 量 表 和 投射 测验 。 在 本 章 中 ,题目 (item), 又 称 为 项 目 、 条 目 或 
试题 。 


第 一 节 人 格 测验 概述 


一 、 人 格 测验 的 发 展 


人 格 本 身 十 分 复杂 ,研究 人 格 的 方法 有 个 案 法 、 相 关 法 和 实验 法 等 ,而 人 格 测验 是 考察 
人 格 特征 的 重要 手段 之 一 。 相 对 于 其 他 的 人 格 研究 方法 ,人 格 测 验 有 明显 的 优势 ,如 量化 程 
度 高 .省 时 高 效 等 。 我 们 这 里 所 说 的 人 格 测验 是 一 种 狭义 的 表达 ,是 指使 用 特定 的 人 格 测量 
工具 对 人 格 特征 进行 数字 表示 的 过 程 。 

现代 人 格 测验 是 从 西方 发 展 起 来 的 。 在 心理 测量 史上 ,首先 提倡 用 科学 方法 测量 人 格 
的 是 英国 学 者 高 尔 顿 。 早 在 1884 年 .他 在 (品格 的 测量 ) 一 文中 就 提出 :“ 构 成 我 们 行为 的 
品格 是 一 种 明确 的 东西 ,所 以 应 该 加 以 测量 .” 他 认为 通过 记录 心律 和 脉 律 的 变化 可 以 测量 
人 的 情绪 ,通过 观察 社会 情境 中 人 的 活动 可 以 评估 人 的 性 情 、 脾 气 等 特征 。 他 还 编制 了 人 格 
的 评定 量 表 ,可 以 说 是 对 人 格 测量 技术 的 初步 尝试 。 

19 世纪 中 后 期 ,高 尔 顿 提出 了 词语 联想 技术 和 行为 抽样 等 测量 性 格 的 方法 ;1892 年 , 克 
雷 佩 林 把 词语 联想 技术 用 于 临床 ;1921 年 , 罗 夏 编制 完成 了 罗 夏 墨迹 测验 ;1926 年 , 古 德 纳 
KCF. L. Goodenough) 发 表 了 画 人 测验 :1943 年 , 哈 萨 威 和 麦 金利 发 表 了 明尼苏达 多 相 人 格 
调查 表 ;1970 年 以 来 ,电脑 在 人 格 测验 的 实施 .评分 和 解释 方面 逐步 得 到 应 用 ;1985 年 ,( 教 
育 与 心理 测验 之 标准 ) 面 市 ;1994 年 ,对 人 格 异常 测验 有 重要 指导 意义 的 (诊断 和 统计 手册 
S85 PU fig (DSM-IV )》 发 表 。 

人 格 测验 的 不 断 发 展 , 除 了 归功 于 一 些 学 者 的 不 懈 努 力 之 外 ,还 与 社会 的 需要 有 密切 的 
关系 。 长 期 以 来 ,人 格 测验 被 广泛 应 用 于 教育 .工商 政府 .军事 .医疗 和 咨询 等 机 构 , 其 中 较 
受 瞩 目的 五 个 领域 分 别 为 健康 .司法 .婚姻 与 家 庭 咨 询 ` 运 动 和 消费 者 行为 。 
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二 、 人 格 测验 的 种 类 


(一 ) 自 陈 量 表 

自 陈 量 表 , 又 称 客观 测验 ,是 由 被 试 根据 自己 的 想法 ,对 自己 的 人 格 进行 评价 的 一 种 方 
法 ,一 般 采 用 题目 一 选项 的 形式 。 相 当 多 的 人 格 测验 采取 自 陈 量 表 的 形式 ,如 经 典 的 明 尼 苏 
达 多 相 人 格调 查 表 、 卡 特 尔 16 种 人 格 因 素 问 卷 等 。 自 陈 量 表 施 测 的 基本 前 提 是 被 试 自己 了 
解 自己 。 

(二 ) 投射 测验 

上 面 讲 到 的 自 陈 量 表 , 因 其 材料 清晰 ,测验 目的 明确 ,一般 称 为 客观 测验 ,被 试 在 答题 过 
程 中 ,不 需要 发 挥 想 象 力 。 然 而 ,与 自 陈 量 表 相 比 ,投射 测验 有 很 多 不 同 : 一 方面 ,投射 测验 
呈现 给 被 试 的 是 无 结构 的 、 模 棱 两 可 的 或 开放 的 测验 材料 ,让 被 试 在 一 个 自由 空间 中 充分 发 
挥 想象 力作 出 反应 ; 另 一 方面 ,投射 测验 使 用 的 材料 包括 墨迹 图 ,故事 图 片 、 模 型 等 ,在 测试 
过 程 中 ,被 试 把 自己 的 动机 、 情 感 、 欲 望 等 无 意识 地 投射 到 测验 材料 上 。 


三 、 人 格 测验 的 真实 性 问题 


相对 于 智力 测验 来 说 ,人 格 测验 的 信 度 和 效 度 会 偏 低 一 些 ,这 就 使 人 们 提出 了 人 格 测验 
的 真实 性 问题 。 除 了 编写 测验 项 目的 技术 外 , 受 测 者 是 否 真 实地 回答 测验 所 提出 的 各 种 问 
题 , 也 是 影响 人 格 测验 的 真实 性 的 一 个 重要 因素 。 运 用 自 陈 量 表 测 量 人 的 人 格 特征 时 ,通常 
要 求 受 测 者 针对 所 提出 的 问题 在 “是 "和 * 和 否 " 两 个 备 选 选项 之 间 ,选择 一 个 符合 他 的 实际 情 
况 的 选项 。 在 这 种 情况 下 ,被 试 的 选择 容易 受到 社会 评价 的 影响 , 即 受 测 者 为 了 获得 较 高 的 
社会 评价 ,或 不 愿意 让 其 他 人 了 解 到 自己 真实 的 人 格 而 选择 与 自己 实际 情况 相反 的 选项 。 
另外 ,对 于 有 些 受 测 者 来 说 ,即使 有 多 个 选项 ,也 难以 选 出 符合 自己 情况 的 选项 。 这 时 ,他 们 
常常 会 随便 选择 一 个 。 有 些 受 测 者 可 能 会 有 无 意识 的 防卫 倾向 ,所 以 不 知 不 觉 地 选择 了 与 
自己 的 实际 情况 不 相符 合 的 选项 。 

为 了 防止 上 述 情况 的 出 现 , 有 些 自 陈 量 表 插入 了 一 些 测 谎 项 目 , 若 受 测 者 在 该 量 表 上 的 
得 分 过 高 , 则 说 明 受 测 者 没有 真实 作答 ,所 以 其 他 方面 的 分 数 也 就 不 能 作为 评价 其 人 格 特征 
的 依据 。 在 明尼苏达 多 相 人 格调 查 表 和 艾 森 克 人 格 问卷 中 就 包含 有 这 种 测 谎 量 表 。 但 是 ， 
这 只 能 在 一 定 程度 上 解决 测量 的 真实 性 问题 ,假如 多 数 受 测 者 的 说 谎 分 数 都 高 ,那么 测验 就 
没有 多 大 意义 了 。 当 然 ,在 实际 测量 中 这 种 情况 很 少 出 现 。 

防止 人 格 测验 不 真实 的 另 一 个 办 法 就 是 采用 投射 测验 。 投 射 测验 的 一 个 优点 是 ,可 以 
让 受 测 者 在 不 知 不 觉 中 将 他 的 无 意识 心理 投射 到 他 对 测验 项 目的 反应 之 中 。 但 是 ,投射 测 
验 存在 着 结果 难以 量化 的 问题 , 即 对 测验 结果 的 解释 是 施 测 者 的 主观 看 法 ,不 同 的 施 测 者 对 
同一 个 测验 结果 的 解释 常常 不 完全 相同 。 因 此 ,假如 对 测验 结果 给 予 不 同 的 解释 ,那么 尽管 
测验 结果 本 身 是 真实 的 ,也 难以 说 明 整 个 测量 工作 的 真实 性 。 

当然 ,即使 人 格 测验 存在 上 述 难以 保证 真实 性 的 问题 :也 不 能 完全 否定 人 格 测验 在 一 定 
程度 上 的 科学 性 ,只 能 说 明 这 是 人 格 测验 需要 进一步 改进 和 完善 的 问题 。 人 格 测验 尽管 存 
在 着 一 定 的 难度 和 复杂 性 ,但 经 过 近 百 年 的 发 展 ,也 已 经 初步 形成 了 一 套 比较 科学 的 人 格 测 
量 技术 与 方法 ,并 在 实际 应 用 领域 发 挥 着 越 来 越 重要 的 作用 。 
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第 二 节 BR BR 


自 陈 人 格 测量 就 是 根据 要 测量 的 人 格 特质 ,编制 许多 有 关 的 问题 ,要 求 受 测 者 根据 自 
己 的 实际 情况 逐一 回答 这 些 问题 ,然后 根据 受 测 者 的 答案 ,去 衡量 受 测 者 在 这 种 人 格 特质 
上 表现 的 程度 。 为 完成 自 陈 人 格 测量 而 编制 的 测量 工具 叫 自 陈 量 表 或 自 陈 问卷 。 自 陈 量 
表 是 目前 使 用 最 为 广泛 的 人 格 测量 工具 ,这 是 因为 自 陈 量 表 中 的 项 目 结构 清晰 ,意义 明 
确 , 被 试 只 需 根据 自己 的 实际 情况 选择 较 符合 自己 人 格 特征 的 描述 即 可 。 同 时 , 自 陈 量 表 
的 施 测 和 使 用 也 相对 简单 方便、 经 济 , 主 试 只 需 作 一 简要 指导 ,就 可 对 大 量 被 试 同时 进行 
施 测 。 另 外 , 自 陈 量 表 对 主 试 的 要 求 不 高 ,记分 和 分 数 的 解释 也 较为 明确 ,但 它 的 缺点 是 
易 受 被 试 反应 定 势 的 影响 ,作答 也 较 受 限制 ,提供 的 备 选项 并 不 一 定 完全 包含 了 对 被 试 实 
际 人 格 特征 的 描述 。 

从 大 的 范围 来 说 ,可 以 将 自 陈 量 表 的 编制 策略 分 为 演绎 式 编制 策略 和 实证 式 编制 策略 。 
演绎 式 编制 策略 包括 逻辑 分 析 法 和 理论 分 析 法 ,实证 式 编制 策略 包括 经 验 效 标 法 、 因 素 分 析 
法 和 综合 法 。 


一 、 采 用 还 辑 或 理论 分 析 法 编制 的 自 陈 量 表 


逻辑 分 析 法 是 根据 编制 者 对 人 格 的 界定 和 逻辑 推理 来 确定 测验 应 该 包括 哪些 内 容 的 一 
种 方法 。 例 如 ,要 测量 “外 向 ?型 人 格 ,编制 者 可 能 比较 关心 被 试 人 际 交 往 等 方面 的 内 容 , 而 
不 是 关心 被 试 是 否 对 高 等 数学 感 兴趣 等 方面 的 内 容 。 在 用 逻辑 分 析 法 编制 测验 时 ,首先 要 
确定 测量 的 特质 ,然后 编写 出 一 些 看 起 来 能 够 测量 这 类 特质 的 题目 ,最 后 编制 成 量 表 。 这 类 
人 格 测验 主要 包括 伍德 沃 斯 个 人 资料 调查 表 (WPDS) ,詹金斯 活动 调查 表 (JAS) 和 显 性 焦虑 
量 表 (MAS) 等 。 

理论 分 析 法 是 根据 某 种 人 格 理论 ,确定 所 要 测量 的 特质 ,然后 编写 或 选择 一 些 看 起 来 
能 够 测量 这 些 特质 题目 的 一 种 方法 。 用 理论 分 析 法 编制 自 陈 量 表 , 其 典型 代表 是 爱德华 
个 人 偏好 量 表 (Edwards Personal Preference Schedule. EPPS)。 爱 德 华 个 人 偏好 量 表 是 由 
美国 心理 学 家 爱德华 (A.L. Edwards) F 1953 年 编制 的 ,是 以 莫 瑞 (H. A. Murray) 的 需要 
理论 中 所 列 的 15 种 心理 需求 为 基础 的 。EPPS 共 包 括 225 个 项 目 ,15 个 分 量 表 , 其 中 15 
个 项 目 是 重复 项 目 , 项 目 采 用 第 一 人 称 “我 .用 “强迫 选择 ”要 求 被 试 选取 两 个 选项 中 的 一 
个 。EPPS 的 15 个 分 量 表 分 别 是 成 就 .崇拜 .秩序 、 表 现 欲 . 自 主 性 、 亲 近 性 ,探究 欲 . 求 助 、 
支配 .谦卑 性 .慈善 变异 .坚毅 .异性 和 攻击 性 。EPPS 可 以 通过 被 试 的 反应 ,计算 出 15 个 
分 量 表 的 得 分 ,从 而 知道 被 试 在 某 种 需要 上 的 强度 ,并 可 以 画 出 人 格 训 面 图 ,比较 各 种 需 
求 的 相对 位 置 。 


二 、 采 用 经 验 效 标 法 编制 的 自 陈 量 表 


(一 ) 明尼苏达 多 相 人 格调 查 表 (MMPI 和 MMPI-2) 

1. MMPI 和 MMPI-2 的 简介 

明尼苏达 多 相 人 格调 查 表 (Minnesota Multiphasic Personality Inventory, MMPI) 是 目 
前 使 用 最 为 广泛 的 心理 测验 之 一 。 它 是 由 明尼苏达 大 学 教授 哈 萨 威 (S. R. Hathaway) M 
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金利 (J. C. Mckinley) F 1943 年 编制 并 出 版 的 ,采用 的 是 经 验 效 标 法 。1966 年 ,两 人 又 发 表 
了 MMPI 的 修订 版 。1989 年 ,出 版 了 MMPI 第 二 版 , 即 MMPI-2;1992 年 ,出 版 了 青少年 版 
(MMPI-A)。 我 国 宋 维 真 等 人 从 1980 年 开始 主持 修订 MMPI,1989 年 完成 了 MMPI 常 模 
的 制定 ,1992 年 又 开始 主持 修订 MMPI-2,1994 年 完成 了 MMPI-2 常 模 的 制定 。 

2. MMPI 和 MMPI-2 的 编制 过 程 

哈 萨 威 和 麦 金利 最 初 编制 MMPI 的 目的 是 对 精神 病人 进行 评估 和 诊断 。 他 们 在 当时 
采用 了 经 验 效 标 法 进行 量 表 编制 。 在 量 表 编制 前 ,他 们 广泛 查阅 了 当时 心理 和 精神 疾病 的 
临床 病历 .病史 报告 .医生 手记 、 病 历 档案 资料 和 早期 出 版 的 人 格 测验 等 材料 ,并 最 初 收集 了 
1 000 多 个 题目 。 然 后 ,在 正常 组 被 试 和 精神 疾病 组 ( 效 标 组 ) 被 试 中 进行 施 测 , 施 测 结果 以 
项 目 分 析 法 比较 两 组 的 区 别 , 最 后 保留 了 区 分 度 高 的 项 目 。 该 量 表 中 的 所 有 项 目 都 采用 陈 
述 句 的 表达 方式 ,被 试 只 要 根据 项 目 所 述 作 * 是 ?或 “和 否 "的 反应 即 可 。 所 有 的 项 目 构成 了 10 
个 临床 量 表 和 4 个 效 度量 表 。 效 度量 表 的 目的 是 检查 被 试 答题 的 态度 和 真实 性 。 

MMPI 包含 了 566 个 项 目 ,其 中 有 16 个 项 目 是 重复 的 项 目 , 实 际 上 是 550 个 项 目 , 如 果 
只 用 于 精神 病 临床 诊断 ,可 以 只 做 前 399 题 。MMPI 项 目 所 包含 的 内 容 很 广 , 包 括 身 体 各 个 
方面 的 情况 ,如 神经 系统 、 心 血管 系统 、 消 化 系统 等 ,也 包括 精神 状态 以 及 对 家 庭 、 婚 姻 、 宗 
教 \ 政 治 、 社 会 等 的 态度 , 共 26 个 方面 。 

MMPI - 2 有 567 个 项 目 ,相对 于 MMPI, 其 临床 量 表 变 化 不 大 , 效 度量 表 却 有 较 大 调 
整 ,如 果 只 用 于 精神 病 临 床 诊断 ,可 以 只 做 前 370 题 。 

3. MMPI 和 MMPI-2 的 构成 

MMPI 的 主体 是 10 个 临床 量 表 和 4 个 效 度 量 表 , 每 个 分 量 表 主 要 测量 的 内 容 有 所 不 
同 , 下 面 通过 列表 的 方式 进行 说 明 , 如 表 8 一 1 所 示 。 


表 8-1 MMPI 的 10 个 临床 量 表 


数字 序号 英文 缩写 名 称 测量 内 容 
1 Hs 疑 病 反映 被 试 对 身体 功能 的 不 正常 关心 
2 D 抑郁 与 忧郁 淡漠、 悲观 .思想 与 行动 缓慢 有 关 
3 Hy HE 测量 用 转换 反应 来 对 待 压力 或 解决 矛盾 的 倾向 
4 Pd 社会 病态 反映 被 试 性 格 的 偏离 
5 Mf 男子 气 一 女子 气 。 反映 性 别 色彩 
6 Pa 偏执 提示 具有 多 疑 、 孤 独 、 烦 恼 以 及 过 分 敏感 等 
7 Pt 神经 衰弱 测量 紧张 焦虑、 强迫 Ze PEAR 
8 Se 精神 分 列 提示 异乎 寻常 的 或 分 裂 的 思维 方式 
9 Ma 轻 躁 狂 联想 、 活 动 过 多 过 快 ,观念 飘忽 、 夸 大 而 情绪 高 昂 
0 Si 社会 内 向 高 分 为 内 向 , 低 分 为 外 向 


效 度量 表 的 设置 是 为 了 检查 被 试 答题 的 态度 和 真实 性 。MMPI 的 效 度量 表 有 4 个 ,如 
表 8-2 所 示 。 
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8-2 MMPI 的 效 度量 表 


代号 名 K 测量 内 容 
Q 疑问 量 表 分 数 高 代表 模棱两可 的 选项 多 ,答卷 不 可 靠 
L Be ite 分 数 高 代表 答案 不 真实 
F 诈 病 量 表 分 数 高 代表 诈 病 或 严重 偏执 
K 校正 量 表 分 数 高 代表 自我 防卫 反应 ,也 作为 部 分 临床 量 表 的 校正 分 数 


在 表 8-2 中 ,Q 量 表 比 较 特殊 ,本 身 没有 题目 ,是 根据 被 试 的 回答 情况 通过 “检查 ”的 形 
RKI. MMPI 每 个 项 目的 选项 为 “是”“ 否 "和 “无 法 回答 ”,Q 量 表 表 示 被 试 选 择 “ 无 法 
回答 ”的 项 目 。 

MMPI -2 在 MMPI 的 基础 上 ,对 10 个 临床 量 表 的 一 些 题目 进行 了 增删 ,但 临床 量 表 的 
名 称 、 英 文 缩写 及 数字 序号 都 不 变 ,对 临床 量 表 的 解释 也 基本 不 变 。 然 而 ,需要 注意 的 是 
MMPI -2 增加 了 三 个 MMPI 没有 的 效 度 量 表 , 其 中 一 个 是 Fb( 后 下 量 表 ) ,功能 与 F 量 表 一 
样 ,但 只 是 对 第 370 题 以 后 的 项 目的 诈 病 倾向 进行 评估 ;另外 两 个 是 反 向 答题 矛盾 量 表 
(VRIN) 和 同 向 答题 矛盾 量 表 (TRIN) ,前 者 高 分 用 来 评估 随机 盲目 作答 倾向 ,后 者 高 分 用 来 
评估 不 加 区 别 地 作 肯 定 回答 倾向 。 

4. MMPI 和 MMPI- 2 的 施 测 程序 

MMPI 和 MMPI- 2 适用 于 16 岁 以 上 有 阅读 能 力 的 成 人 。 对 于 MMPI 和 MMPI- 2 
的 施 测 , 目 前 主要 有 纸 笔 测试 ,卡片 式 测试 和 计算 机 测试 三 种 形式 。 纸 笔 测 试 是 把 题目 印 
在 问卷 上 ,让 被 试 在 答题 纸 上 标 出 答案 。 卡 片 式 测 试 是 将 题目 印 在 卡片 上 ,被 试 作答 时 ， 
将 卡片 根据 自己 的 情况 投 到 分 别 标 有 “是 近 否 "和 * 无 法 回答 ”的 盒子 里 。 计 算 机 测试 是 借 
助 计算 机 呈现 测验 题目 ,让 被 试 反应 作答 。 纸 笔 测 试 和 计算 机 测试 既 可 用 于 个 别 施 测 ,也 
可 用 于 团体 施 测 ,而 卡片 式 测 试 只 适合 个 别 施 测 。 纸 笔 测 试 和 卡片 式 测试 的 记分 都 十 分 
复杂 ,而 计算 机 测试 记分 相对 容易 得 多 。 在 测试 的 时 间 上 ,一 般 人 45 分 钟 内 就 可 以 完成 ， 
通常 不 超过 90 分 钟 。 

5. MMPI 和 MMPI - 2 的 记分 和 分 数 转换 

测验 结束 后 ,首先 ,根据 MMPI 和 MMPI- 2 的 计 分 方法 ,可 以 得 到 各 量 表 的 原始 分 数 。 
其 次 ,需要 把 临床 量 表 中 的 5 个 分 量 表 , 用 K 量 表 得 分 进行 校正 ,具体 的 方法 是 : Hs 十 
0. 5K,Pd 十 0. 4K,Pt+1. 0K,Se+1.0K,Ma+0. 2K。 最 后 ,再 与 不 需要 校正 的 量 表 一 起 ,将 
原始 分 数 转换 为 T 分 数 。T 分 数 的 转换 公式 如 下 。 


T 一 50 十 10z s04 PA- (8-1) 


在 公式 (8 -1) 中 ,XX 表示 某 被 试 在 某 一 分 量 表 上 的 原始 分 数 ;XX 表示 该 被 试 所 在 党 
模 组 在 该 分 量 表 上 的 原始 分 数 的 平均 数 ;SD 表示 该 被 试 所 在 常 模 组 在 该 分 量 表 上 的 原 
始 分 数 的 标准 差 。 这 样 ,3 实际 上 就 是 < 分 数 ,而 了 分数 实 际 上 是 标准 分 数 的 一 种 
变 式 , 即 T 一 50 十 10z。 

K 8-3 为 一 个 MMPI 记 分 的 例子 。 
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表 8-3 某 被 试 MMPI 测试 结果 


效 度量 表 临床 量 表 
分 量 表 Q L F Ki Hs D Hy Pd Mf Pa Pt Sc Ma Si 


原始 分 数 ü 2 2 12/19 35 28 23 23 16 2 24 18 35 
K 校正 分 数 25 28 34 36 20 
T 50 35 63 47:70 68 61 59 64 58 55 49 47 50 


获得 工分 数 后 ,需要 将 被 试 在 各 分 量 表 上 的 得 分 登记 在 剖面 图 上 ,并 将 各 点 相连 ,就 获 
得 了 被 试 的 人 格 特征 曲线 , 即 剖 面 图 。 这 里 需要 注意 的 是 ,剖面 图 按 性 别 分 为 男女 两 种 。 

6. MMPI 和 MMPI- 2 的 结果 解释 

MMPI fil MMPI -2 以 工分 数 来 解释 结果 ,在 看 临床 量 表 之 前 ,首先 需要 看 效 度量 表 的 
结果 ,因为 效 度量 表 的 结果 关系 到 答题 的 有 效 性 。 根 据 量 表 编制 者 提供 的 标准 ,Q 量 表 的 原 
始 分 数 不 应 超过 22 分 或 30 分 ;L 量 表 的 原始 分 数 不 应 超过 10 分 ;F 量 表 的 原始 分 数 不 应 超 
过 25 分 ;K 量 表 的 量 表 分 (T 分数) 不 应 超过 70。 对 于 临床 量 表 的 结果 ,MMPI 美 国 常 模 的 
工分 数 为 70, 中 国 常 模 的 工分 数 为 60;MMPI- 2 美国 常 模 的 工分 数 为 65, 中 国 常 模 的 了 分 
数 为 60。 若 被 试 得 分 超过 常 模 分 数 , 则 提示 被 试 有 可 能 存在 人 格 异 常 。 

MMPI 和 MMPI-2 对 分 数 的 解释 还 有 一 些 综合 分 析 的 方法 ,如 两 点 编码 法 .整体 模式 
分 析 法 等 。 

7. 对 MMPI 和 MMPI- 2 的 简要 评价 

MMPI 和 MMPI- 2 之 所 以 应 用 十 分 广泛 ,是 因为 其 有 很 多 的 优点 。 首 先 , 量 表 是 采用 
经 验 效 标 法 编制 的 , 既 可 以 用 于 异常 个 体 的 人 格 测试 ,又 可 以 对 正常 个 体 进行 人 格 评估 ;其 
次 , 量 表 编制 过 程 十 分 严谨 ,重视 实证 数据 ,确保 了 该 测验 临床 诊断 的 符合 率 很 高 ;最 后 ， 
MMPI #il MMPI- 2 引入 了 效 度量 表 . 提 高 了 测验 在 临床 上 的 应 用 价值 。 

但 是 ,由 于 MMPI 和 MMPI-2 题 量 较 大 ,容易 引起 被 试 厌烦 ,从 而 影响 测验 测量 的 效 
RE. 另外 ,MMPI 和 MMPI -2 临床 量 表 的 名 称 较为 敏感 ,为 避免 误会 ,报告 分 数 时 要 求 用 各 
量 表 的 数字 序号 或 英文 缩写 。 

(=) 加 利 福 尼 亚 心理 调查 表 (CPI) 

1. CPI 的 简介 

加 利 福 尼 亚 心理 调查 表 (California Psychological Inventory, CPI) 是 由 高 夫 (H. G. 
Gough) 于 1948 年 编制 的 ,1951 年 正式 出 版 .1957 年 再 版 ,也 是 采用 经 验 效 标 法 编制 的 。 它 
主要 用 于 测量 健康 的 人 格 层面 ,对 于 人 际 关 系 的 社会 行为 等 尤为 注重 。CPI 最 初版 本 的 480 
个 项 目 中 有 一 半 来 自 MMPI, 这 表明 它 是 以 MMPI 为 基础 编制 的 。 但 是 ,CPI 更 注重 人 格 中 
积极 的 、 正 常 的 方面 ,而 MMPI 更 注重 消极 的 、 非 正常 的 方面 。 因 此 ,CPI 被 称 为 “正常 人 ”的 
MMPI, CPI F 1964 年 .1975 年 和 1987 年 进行 过 三 次 修订 。1993 年 ,杨坚 和 右 泡 先 等 中 国 
学 者 对 1987 版 进行 了 修订 ,被 称 为 CPI-RC, 包 括 400 个 项 目 ,23 个 分 量 表 。 

2. CPI 的 结构 

1987 年 第 三 次 修订 的 CPI 共 包 括 462 个 项 目 。 这 些 项 目 共同 组 成 了 23 个 分 量 表 , 包 括 
3 个 效 度 量 表 、17 个 通俗 概念 量 表 和 3 个 结构 量 表 。 
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第 一 , 效 度量 表 。3 个 效 度量 表 , 即 幸福 感 . 好 印象 和 从 众 性 。 幸 福 感 是 以 * 装 好 ?的 反 
应 为 基础 ,好 印象 是 以 “ 装 坏 ” 的 反应 为 基础 ,从 众 性 是 以 “ 易 为 大 家 接受 ”回答 的 频次 计算 为 
基础 。 

第 二 ,通俗 概念 量 表 。17 个 通俗 概念 量 表 分 别 测量 了 支配 性 、 上 进 心 、 社 交 性 、 自 主 性 、 
自我 接纳 、 责 任 感 ,社会 化 .自控 力 、 宽 容 性 ,遵从 性 成 就 ,独立 性 成 就 .智力 效率 ,心理 感受 
性 、 灵 活性 、 男 子 气 一 女子 气 、 独 立 性 和 移 情 性 。 其 中 ,13 个 通俗 概念 量 表 的 项 目 选择 是 以 
经 验 效 标 法 为 基础 的 ,而 另外 4 个 通俗 概念 量 表 是 在 对 项 目 进 行内 部 一 致 性 考察 的 基础 上 
进行 选择 的 。 

第 三 ,结构 量 表 。3 个 结构 量 表 包括 三 大 主题 .分别 是 角色 、 性 格 和 能 力 。 中 角色 这 一 
主题 , 即 人 际 定向 (内 向 一 外 向 ), 是 人 际 交往 时 自我 的 显露 ,已 隐 含 在 上 进 心 .支配 性 、 自 我 
接纳 、 社 交 性 和 自主 性 等 量 表 中 。 回 性 格 ( 常 模 趋 向 一 常 模 异 向 ) 这 一 主题 , 即 常规 遵循 , 涉 
及 责任 感 、 社 会 化 、 自 控 力 等 诸如 此 类 的 内 在 价值 观 。 常 模 趋 向 是 指 倾向 于 具有 良好 的 组 织 
纪律 性 和 自控 能 力 , 有 良知 ,遵循 传统 价值 ,可 靠 ; 常 模 异 向 是 指 倾 向 于 有 有 反叛 性 \ 不 安 分 、 追 
求 享乐 、 自 我 纵容 ,不 遵循 传统 价值 ,不 可 靠 。@ 能 力 这 一 主题 , 即 自我 实现 ,与 遵从 性 成 就 、 
独立 性 成 就 .智力 效率 .幸福 感 及 宽容 性 等 量 表 有 关 。 

将 结构 量 表 的 前 两 大 主题 进行 分 类 ,可 以 形成 4 种 人 格 类 型 一 一 a、B、Y、5。a 型 人 格 
是 外 向 的 和 常 模 趋向 的 ;8 型 是 内 向 的 和 常 模 趋 向 的 ;y 型 是 外 向 的 和 常 模 异 向 的 ;6 型 是 
内 向 的 和 常 模 异 向 的 。 总 之 ,a 型 是 “控制 的 ”,B 型 是 “传统 的 ”,Y Ei AY”. 型 是 
“冲突 的 ”。 

3. 对 CPI 的 简要 评价 

CPI 在 商业 中 得 到 了 广泛 应 用 ,包括 筛选 和 培养 成 功 的 雇员 、 领 导 者 ,创造 高 效 的 组 织 
机 构 及 促进 和 谐 的 团队 工作 等 。CPI 的 4 种 人 格 类 型 对 于 工业 组 织 用户 上 具有 较 强 的 吸 
引力 。 


三 、 采 用 因素 分 析 法 编制 的 自 陈 量 表 


(一 ) 卡特 尔 16 种 人 格 因素 问卷 (16PF) 

1. 16PF 的 简介 

卡特 尔 16 种 人 格 因素 问卷 (Cattell's Sixteen Personality Factor Questionnaire, 16PF) 
是 根据 因素 分 析 法 编制 量 表 的 典范 ,是 由 卡特 尔 (R. B. Cattell) 于 1949 年 编制 的 。 其 理论 基 
础 是 卡特 尔 的 人 格 特质 理论 。 卡 特 尔 认为 ,人 格 是 由 许多 特质 构成 的 ,这 些 特质 可 以 区 分 为 
两 种 类 型 : 一 种 是 表面 特质 , 指 一 个 人 经 常 发 生 的 、 从 外 部 可 以 直接 观察 到 的 行为 表现 ; 另 
一 种 是 根源 特质 ,蕴含 在 表面 特质 内 部 ,对 表面 特质 起 着 制约 作用 ,是 形成 人 格 的 基础 。 

奥 尔 波 特 (G. W. Allport) 和 卡特 尔 是 人 格 特质 理论 学 派 的 代表 人 物 。 奥 尔 波 特 曾 从 字 
WERT 17 953 个 人 格 词汇 ,认为 其 中 4 504 个 是 “真正 的 ”人 格 特质 条 目 。 卡 特 尔 在 此 基 
础 上 ,对 这 些 词汇 作 了 进一步 的 分 类 ,得 到 171 个 条 目 。 他 让 大 学 生 用 这 171 个 条 目 评价 他 
们 的 朋友 ,通过 聚 类 分 析 法 得 到 35 个 特质 变量 ,后 经 过 斜 交 旋转 得 到 12 个 因素 。 后 又 经 过 
进一步 研究 ,将 因素 增加 到 15 个 ,卡特 尔 根据 实际 体会 又 增加 了 一 个 智力 因素 (这 个 因素 不 
是 经 过 因素 分 析 法 得 到 的 ) ,最 后 得 到 了 16 个 因素 ,并 称 这 16 个 因素 为 根源 特质 。 

16PF 英文 原版 共有 5 种 形式 的 版 本 : A、B 版 本 为 全 版 本 ,各 有 187 个 项 目 ;C、D 版 本 
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为 缩减 本 ,各 有 106 个 项 目 ;E 版 本 适用 于 文化 水 平 较 低 的 被 试 ,有 128 个 项 目 。16PF 适用 
于 16 岁 及 以 上 的 被 试 ,可 作为 了 解 自我 心理 障碍 的 个 性 原因 及 心理 疾病 诊断 的 重要 手段 ， 
也 可 用 于 人 才 选 拔 。 

目前 ,我 国 16PF 的 修订 版 有 三 个 。1970 年 , 刘 永 和 与 梅 瑞 迪 斯 合作 ,以 2 000 多 名 中 国 
港 台地 区 的 学 生 为 常 模 组 ,发 表 了 16PF 的 中 国 修订 本 。1981 年 , 李 绍 农 在 刘 永 和 与 梅 瑞 迪 
斯 修订 版 的 基础 上 ,在 中 国 大 陆 修订 出 版 16PF ,并 进行 了 信 效 度 验证 。1988 年 ,在 李 绍 农 等 
人 所 做 工作 的 基础 上 , 戴 忠 恒 与 祝 蓓 里 对 16PF 进行 了 修订 ,并 取得 了 全 国 范围 内 的 信 效 度 
资料 ,这 次 修订 的 16PF 在 国内 应 用 较 广 , 称 为 “中 国 修订 版 的 16PF”。 

2. 16PF 的 结构 

“中 国 修订 版 的 16PF” 仍 保留 了 16 个 根源 特质 ,如 表 8 一 4 所 示 。 其 中 ,与 其 他 人 格 因 
素 不 同 的 是 ,因素 B( 聪 慧 性 ) 的 项 目 是 有 正确 答案 的 ,这 是 因为 聪慧 性 因素 反映 的 是 智力 
因素 。 


表 8-4 16 种 人 格 因素 的 名 称 及 代号 
r © 


3. 16PF 的 施 测 、 记 分 及 结果 解释 

16PF 既 可 用 于 团体 施 测 ,也 可 用 于 个 别 施 测 。16PF 每 个 项 目 有 a、b、c 三 个 选项 。 在 
实施 16PF 测验 时 ,要 确保 被 试 每 一 测 题 只 选择 一 个 答案 ,没有 遗留 任何 测 题 。 除 聪慧 性 
素 外 ,被 试 尽量 不 要 选择 b 答案 , 即 中 性 答案 。 除 聪慧 性 因素 外 ,根据 被 试 对 每 个 项 目的 回 
答 , 分 别 记 分 0.1.2 或 2.1.0。 聪 慧 性 因素 只 有 0.1 两 种 记分 ,答对 记 1 分 , 答 错 记 0 分 。 
16PF 记分 时 可 以 借助 模板 ,目前 大 多 数 情 况 下 采用 计算 机 自动 记分 。 每 个 分 量 表 的 原始 分 
数 需 转换 成 标准 十 分 数 Zi ,其 公式 如 下 。 


— 
Z=5.5-+22=5, 5 +2 AF (8-2) 


在 公式 (8- 2) 中 ,X 表 示 某 被 试 在 16PF 某 一 因素 上 的 原始 分 数 ;X 表示 该 被 试 所 在 
常 模 组 在 该 因素 上 的 原始 分 数 的 平均 数 ;SD 表示 该 被 试 所 在 常 模 组 在 该 因素 上 的 原始 分 
数 的 标准 差 。 这 样 ,5 二 实 际 上 就 是 < 分 数 ,而 Zi 实际 上 是 标准 分 数 的 一 种 变 式 , 即 Zu 
一 5.5 十 2z。 

16PF 根据 各 因素 的 高 分 特征 和 低 分 特征 来 描述 被 试 的 人 格 特点 ,1 一 3 分 为 低 分 ,8 一 
10 分 为 高 分 。 

除了 对 16 种 人 格 因素 进行 单独 解释 外 ,卡特 尔 还 在 实证 研究 的 基础 上 提出 了 4 个 次 元 
人 格 因素 (X 因素 ) 和 4 种 特 丈 领域 的 人 格 因素 (Y 因素 ) ,它们 的 推算 公式 如 下 : 

(1) 适应 与 焦虑 性 (Xi); (38+2L+30+4Q, —2C—2H—2Q;)/10. 

(2) 内 向 与 外 向 性 (Xs): (2A+3E+4F+5H—2Q.—11)/10. 

(3) 感情 用 事 与 安 详 机 警 性 (Xs): (77 十 2C 十 2E 十 2F 十 2N 一 4A 一 61 一 2M)/10。 

(4) 愤 刁 与 果断 性 (X,): (4E 十 3M 十 4Q1 十 4Qz 一 3A 一 2G)/10。 
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(5) 心理 健康 者 的 人 格 因素 (Yi): CF 十 (11 一 0) 十 (11 一 Q)。 

(6) 从 事 专业 而 有 成 就 者 的 人 格 因素 (Y:): 2Q; 十 2G 十 2C 十 E 十 N 二 Qs 十 Qi。 

(7) 创造 力 强 者 人 格 因素 (Y:): 2(11 一 A) 十 2B 十 E 二 2(11 一 F) 十 H 十 2I 十 M 十 (11 一 
N) 十 Qi 十 2Q: 。 

(8) 在 新 的 环境 中 有 成 长 能 力 者 的 人 格 因素 (Y,): B 十 G+Q: 十 (11 一 F)。 

4. 对 16PF 的 简要 评价 

相对 于 MMPI 和 MMPI-2 而 言 ,16PF 可 以 在 较 短 的 时 间 内 测 出 较 多 的 人 格 特质 , 凡 有 具 
有 相当 于 初 三 以 上 文化 程度 的 人 都 可 以 使 用 。 在 企业 和 学 校 的 职业 选择 、 人 员 招 聘 与 选拔 
等 领域 ,16PF 应 用 十 分 广泛 。 但 是 ,与 大 多 数 自 陈 量 表 一 样 ,16PF 也 容易 受到 社会 赞许 效 
应 的 影响 。 

(=) 艾 森 克 人 格 问卷 (EPQ) 

1. EPQ 的 简介 

艾 森 克 人 格 问卷 (Eysenck Personality Questionnaire,EPQ) 是 由 英国 心理 学 家 艾 森 克 
KIAH. J. Eysenck & Sybil B. G. Eysenck) F 1975 年 编制 完成 的 ,也 是 采用 因素 分 析 法 编 
制 的 人 格 测验 。EPQ 的 理论 基础 是 艾 森 克 人 格 类 型 理论 。 艾 森 克 认为 ,人 格 类 型 是 由 3 个 
基本 维度 构成 的 , 即 内 外 向 、 神 经 质 和 精神 质 , 它 们 都 有 一 定 的 生理 基础 。 

EPQ 分 为 儿童 问卷 和 成 人 问卷 两 种 类 型 ,两 种 类 型 的 问卷 都 包含 4 个 分 量 表 , 其 中 三 
个 是 人 格 维度 的 量 表 , 另 一 个 是 效 度量 表 。 英 文 版 的 EPQ 儿童 问卷 共有 97 个 项 目 ,适用 于 
7 一 15 岁 的 被 试 ;成 人 问卷 共有 101 个 项 目 ,适用 于 16 岁 以 上 的 被 试 。EPQ 两 种 类 型 的 问 
卷 既 可 用 于 个 别 施 测 ,也 可 用 于 团体 施 测 。 目 前 ,不 仅 可 以 用 纸 笔 进 行 EPQ 施 测 ,也 可 以 在 
计算 机 上 进行 施 测 。 

1984 年 EMITE AX EPQ 进行 了 修订 和 标准 化 .对 项 目 进行 了 增删 ,并 建立 了 中 国 
常 模 。 我 国 修订 版 的 EPQ 儿童 和 成 人 问卷 均 由 88 个 项 目 组 成 ,每 个 项 目 都 有 “是 ”和 *“ 否 ” 
(或 “不 是 ”) 两 个 选项 ,其 使 用 的 年 龄 范围 与 英文 版 相同 。 

2. EPQ 的 结构 

相对 于 16PF 和 其 他 采用 因素 分 析 法 编制 的 人 格 测验 而 言 ,EPQ 的 因素 较 少 , 整 份 问卷 
仅仅 包含 4 个 分 量 表 , 如 下 。 

王 量 表 ( 内 外 向 ) ,高 分 者 性 格外 向 ,好 交际 ,渴望 刺激 和 冒险 ,情感 易于 冲动 ; 低 分 者 人 格 内 
向 ,好 静 , 富 于 内 省 , 除 亲 密 朋 友 外 ,对 一 般 人 弓 默 冷淡 ,不 喜欢 刺激 ,喜欢 有 秩序 的 生活 方式 。 

N 量 表 ( 神 经 质 ) ,又 称 “情绪 稳定 性 ”, 反 映 的 是 正常 行为 ,并 非 指 神经 症 。 高 分 者 常常 
焦虑 .担忧 .郁郁 不 乐 . 忧 心 昼 促 , 有 强烈 的 情绪 反应 ,以 致 出 现 不 够 理智 的 行为 : 低 分 者 情绪 
反应 慢 而 轻微 ,易于 恢复 平静 ,性 情 温 和 ,善于 自我 控制 。 

P 量 表 ( 精 神 质 ) ,并 非 指 精神 病 , 在 每 个 人 身上 都 存在 。 高 分 者 孤独 ,不 关心 他 人 ,难以 
适应 外 部 环境 ,不 近 人 人情, 感觉 迟钝 ,喜欢 干 奇 特 的 事情 ,与 他 人 不 能 友好 相处 ,固执 个 强 ; 低 
分 者 能 与 他 人 相处 ,能 较 好 地 适应 环境 ,态度 温和 ,不 粗暴 , 善 解 人 意 。 

L ER ORDE) ,用 来 测量 被 试 的 说 谎 或 掩饰 倾向 ,承担 效 度量 表 的 功能 。 

3. EPQ 的 施 测 、 记 分 及 结果 解释 

EPQ 每 个 项 目 有 “是 ”和 “ 否 ”( 或 “不 是 ”) 两 个 选项 ,属于 “强迫 选择 ”"。 被 试 做 完 问卷 
后 ,可 开始 记分 。EPQ 的 手册 提供 了 各 项 目的 记分 方法 。 根 据 被 试 的 性 别 和 年 龄 , 便 可 以 
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H ERK RA HE REY OW 50 标准 差 为 10 的 工分 数 。 

EPQ 根据 被 试 在 各 量 表 上 的 T 分 数 不 同 ,将 被 试 区 分 为 高 分 者 、 低 分 者 和 中 间 分 数 者 。 
高 、 低 分 者 临界 值 的 划分 有 两 种 : 一 种 是 中 间 分 数 者 占 50% ,两 端 临界 工 值 分 别 为 43. 3 和 
56.7; 另 一 种 是 中 间 分 数 者 占 75% ,两 端 临界 T 值 分 别 为 38. 5 和 61. 5。 在 实际 应 用 中 ,一 
般 采 用 后 一 种 划分 , 即 量 表 的 T 分 数 超过 61. 5 为 高 分 , 低 于 38. 5 为 低 分 。 

对 被 试 的 分 数 进行 解释 之 前 , 先 要 检查 L 量 表 的 得 分 是 否 过 高 。 如 果 过 高 ,那么 表明 被 
试 的 作 管 可 能 不 真实 ,结果 的 有 效 性 可 能 不 高 ;同时 ,也 可 能 反映 被 试 有 掩饰 自己 人 格 特征 
的 倾向 。 如 果 L 分 较 低 ,那么 表明 被 试 作答 比较 真实 。 

此 外 , 艾 森 克 还 将 内 外 向 和 神经 质 两 个 维度 联合 起 来 作 垂 直 交 互 分 析 , 从 而 可 以 得 到 4 
种 典型 的 气质 类 型 , 即 外 向 稳定 型 (多 血 质 ) 、 外 向 不 稳定 型 (胆汁 质 )、 内 向 稳定 型 (粘液 质 ) 
和 内 向 不 稳定 型 (抑郁 质 ), 如 图 8 一 1 所 示 。 


乐观 
| 外 
R| 向 


内 
向 | 被 到 


图 8-1 EÑ N EPO 四 种 气质 类 型 交互 图 
4. 对 EPQ 的 简要 评价 
EPQ 具有 较 高 的 信 效 度 ,而且 其 对 人 格 维度 的 划分 在 实验 心理 学 和 临床 心理 学 研究 中 
得 到 了 验证 ,被 广泛 应 用 于 医学 .司法 .教育 和 工业 等 领域 。 


四 、 采 用 综合 法 编制 的 自 陈 量 表 


综合 法 是 将 馆 辑 或 理论 分 析 法 、 经 验 效 标 法 和 因素 分 析 法 等 人 格 测验 编制 方法 进行 综 
合 的 一 种 方法 ,该 方法 能 够 吸取 各 种 方法 的 优点 ,取长补短 。 

从 16PF、EPQ 等 采用 因素 分 析 法 编制 的 人 格 测验 可 以 看 出 ,人 格 特 质 的 数量 和 维度 长 
期 以 来 存在 着 很 大 的 争议 。1981 年 , 戈 登 伯 格 (L. R. Goldberg) 提 出 了 五 因素 模型 (Five 
Factors Model, FFM) ,在 一 定 程度 上 平息 了 这 种 争议 。 

1985 年 ,结合 逻辑 或 理论 分 析 法 、 经 验 效 标 法 、 因 素 分 析 法 和 五 因素 模型 , 考 斯 塔 和 麦 
克 雷 (Costa & McCrae) 采 用 综合 法 编制 了 NEO 人 格调 查 表 (Neuroticism Extraversion 
Openness - Personality Inventory, NEO-PI) 1992 年 ,他 们 又 对 NEO-PI 进行 了 修订 ,并 命 
名 为 NEO-PLR, 
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NEO-PLR 包含 了 人 格 的 5 个 维度 (OCEAN) . 4} Sill St FF BLE (Openness. O) 责任 感 
(Consciousness. C), 4b [a] YE (Extraversion. E), È A tE (Agreeableness. A) 和 神经 质 
(Neuroticism.N) ,如 表 8-5 所 示 。 每 个 维度 都 由 6 个 分 量 表 组 成 ,每 个 分 量 表 各 有 8 个 项 
目 ,共有 240 个 项 目 。 


表 8-5 五 因素 模型 的 人 格 因素 


OCEAN 人 格 因素 低 分 特征 高 分 特征 

Openness 开放 性 。 刻板、 创造 性 差 .遵守 习惯 缺乏 好 奇 心 。 富 于 想象 .创造 性 强 、 有 好 奇 心 
Consciousness < 责任 感 马虎 懒惰、 杂乱 无 章 、 不 守 时 认真 .勤奋 ,井井有条 、 守 时 
Extraversion = SpA HE 孤独 、 安 静 、 被 动 绒 默 合群 ,健谈 ,主动 .热情 
Agreeableness ”宜人 性 多 疑 、 刻 薄 TH EE 信任 ,宽容 、 心 软 . 好 脾气 


Neuroticism ”神经 质 冷静 、 不 温 不 火 、 自 在 ,感情 淡漠 自 寻 烦恼 ,神经 质 、 害 羞 ` 感 情 用事 


NEO-PIR 采用 5 级 评分 法 (非常 不 同意 .不 同意 .中 立 \ 同意、 非 常 同意 ) 进 行 评分 。 
NEO-PI-R 大 约 有 一 半 的 项 目 为 反 向 记分 ,这 样 可 以 尽 可 能 减少 作答 偏差 。 NEO-PI-R 不 包 
括 效 度量 表 , 但 有 三 个 评估 反应 效 度 的 项 目 : 一 个 项 目 要 求 被 试 回答 ,他 们 是 否 以 一 种 诚实 
和 正确 的 态度 回答 了 项 目 ; 另 一 个 项 目 询问 被 试 ,是 否 回答 了 所 有 的 项 目 ;还 有 一 个 项 目 评 
人 被 试 的 回答 是 否 与 题 号 对 应 。 另 外 ,NEO-PI-R 还 设置 了 自 评 和 他 评 两 个 版 本 。 

大 量 的 研究 表明 ,NEO-PIR 可 用 于 人 格 障碍 的 测量 ,包括 对 心境 障碍 、 焦 虑 和 物质 滥 
用 等 方面 的 人 格 特点 的 测量 。 同 时 ,NEO-PLR 也 广泛 应 用 于 人 员 选 拔 等 许多 领域 。 


五 、 中 国人 人 格 测验 


从 国外 引入 的 许多 优秀 的 人 格 测验 虽然 经 过 了 本 土 化 ,但 由 于 存在 巨大 的 文化 差异 ,在 
项 目 表述 和 测量 内 容 的 代表 性 ,涵盖 性 等 方面 还 是 有 或 多 或 少 不 尽 如 人 意 的 地 方 ,因此 我 国 
一 些 学 者 自 20 世纪 90 年 代 以 来 就 开始 了 中 国人 人 格 测验 的 编制 工作 。 其 中 ,最 具 代 表 性 
的 是 “中 国人 个 性 测量 表 ” 和 “中 国人 人 格 量 表 ”。 

(一 ) 中 国人 个 性 测量 表 

中 国 科学 院 心 理 研究 所 与 香港 中 文大 学 心理 学 系 于 20 世纪 80 年 代 开始 合作 ,于 1993 
年 由 宋 维 真 等 人 开始 编制 “中 国人 个 性 测量 表 ”(Chinese Personality Assessment Inventory, 
CPAI) 。 编 制 方法 结合 了 逻辑 或 理论 分 析 法 、 经 验 效 标 法 和 因素 分 析 法 。 编 制 的 量 表 包 括 
36 个 分 量 表 ,其 中 ,22 个 正常 个 性 量 表 、12 个 病态 个 性 量 表 及 2 个 效 度量 表 , 共 510 个 项 目 。 
实践 检验 和 统计 分 析 都 表明 ,该 量 表 具有 较 好 的 信和 度 和 效 度 。 

CPAI 的 第 二 版 , 即 CPAI- 2, 正 常 个 性 量 表 增 加 到 28 个 , 效 度量 表 增 加 到 3 个 ,在 修订 
过 程 中 同样 使 用 了 我 国 香港 和 我 国内 地 两 类 被 试 。 

CPAI 及 CPAI- 2 的 编制 推动 了 我 国 对 中 国人 人 格 结构 进行 相关 研究 的 发 展 。2006 
年 ,张建新 回顾 了 20 多 年 CPAI 的 有 关 研 究 , 提 出 了 一 个 人 格 特质 “六 因素 ”假说 (Six 
Factors Model, SFM) ,认为 中 国人 的 人 格 因 素 包 括 情 绪 稳 定性 、 认 真一 责任 性 、 宜 人 性 、 外 
向 一 内 向 性 、 人 际 关系 性 和 开放 性 。 张 建新 指出 ,人 格 因素 的 数量 及 其 理论 定性 之 争 很 可 能 
仅 具 有 方法 学 意义 ,对 于 真正 了 解 人 格 的 本 质 并 非 关 键 。 
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(二 ) 中 国人 人 格 量 表 

1999 年 ,我 国王 登 峰 等 人 根据 词汇 学 的 假设 ,采用 因素 分 析 的 方法 ,建立 了 中 国人 人 格 
的 七 因素 模型 。2003 年 , 王 登 峰 等 人 编制 了 “中 国人 人 格 量 表 ”(Qingnian Zhongguo 
Personality Scale,QZPS) 。 

QZPS 由 7 个 人 格 因素 构成 ,这 7 个 人 格 因素 分 别 是 外 向 性 、 善 良 , 行 事 风 格 .才干 .情绪 
性 、 人 际 关系 和 处 世态 度 。7 个 人 格 因素 又 由 不 同 数量 的 小 的 人 格 因素 所 组 成 ,小 的 人 格 因 
素 的 总 数目 共有 18 个 。QZPS 共有 215 个 项 目 ,每 个 项 目 是 由 一 些 描述 人 格 特征 的 陈述 句 
组 成 ,对 这 些 陈 述 句 的 评定 从 很 不 同意 到 很 同意 共 分 5 个 等 级 。 

由 于 原始 分 数 不 能 直接 比较 ,因此 王 登 峰 等 人 将 QZPS 施 测 于 经 精心 选择 的 常 模 团体 ， 
获得 了 男性 、 女 性 和 总 体 三 组 被 试 在 各 因素 上 的 平均 数 和 标准 差 , 并 分 别 制定 出 相应 的 常 
模 ,以 有 利于 分 数 比较 。 

目前 ,QZPS 尚未 明确 规定 得 分 高 、 低 的 标准 ,我 们 一 般 可 以 用 所 得 的 标准 分 数 高 于 
1. 96 个 标准 差 作 为 划分 高 分 者 的 依据 ,以 所 得 的 标准 分 数 低 于 1. 96 个 标准 差 作为 划分 低 分 
者 的 依据 。 

为 满足 快速 得 查 被 试 的 需要 , 王 登 峰 等 人 还 编制 了 QZPS 的 简化 版 本 , 即 QZPS-SF ,该 
版 本 由 82 个 项 目 组 成 。 此 外 ,他 们 在 QZPS 的 基础 上 还 编制 了 中 国 大 学 生 、 中 国 中 学 生 和 
中 国 青少年 等 的 人 格 分 量 表 。 目 前 ,QZPS 还 在 不 断 完善 和 发 展 之 中 。 

从 宋 维 真 ,张建新 . 王 登 峰 等 人 的 研究 可 以 看 出 ,对 中 国人 人 格 测验 的 编制 工作 已 经 持 
续 了 相对 较 长 的 一 段 时 间 。 在 此 过 程 中 ,他 们 不 仅 借鉴 了 西方 先进 的 量 表 编制 方法 ,而 且 还 
十 分 注重 对 中 国 本 土 文化 和 中 国人 人 格 特性 的 深度 理解 。 实 践 表 明 ,他 们 编制 的 工具 具有 
较 高 的 信 效 度 ,这 必 将 促进 更 多 类 似 测验 的 涌现 。 


六 、 对 自 陈 量 表 的 评价 


(一 ) 自 陈 量 表 的 优点 

1. 自 陈 量 表 编 制 严 谨 , 结 构 明 确 

以 逻辑 或 理论 分 析 法 、 经 验 效 标 法 、 因 素 分 析 法 或 综合 法 编制 的 自 陈 量 表 , 一 般 都 有 严 
格 的 编制 程序 ,以 确保 得 到 高 质量 的 项 目 。 通 过 逻辑 或 理论 分 析 法 、 经 验 效 标 法 、 因 素 分 析 
法 或 综合 法 编制 的 自 陈 量 表 ,分 量 表 之 间 结 构 明 确 , 便 于 对 测试 结果 进行 解释 。 

2. 自 陈 量 表 任 务 清晰 ,包括 很 多 问题 ,可 以 从 不 同 角度 了 解 被 试 的 情况 

自 陈 量 表 作答 时 不 需要 被 试 发 挥 想象 力 ,只 需要 在 限定 的 答案 之 中 选择 即 可 。 自 陈 量 
表 的 项 目 一 般 比 较 多 ,比如 MMPI 有 566 个 项 目 ,16PF 有 187 个 项 目 , 确 保 了 对 行为 样本 收 
集 的 代表 性 ,从 而 能 全 面 考察 被 试 的 人 格 特征 。 

3. 自 陈 量 表 适合 大 规模 团体 施 测 ,记分 和 解释 简单 快捷 

自 陈 量 表 的 作答 方式 比较 容易 ,一 般 都 是 以 选择 的 形式 进行 。 无 论 是 纸 笔 测试 还 是 计 
算 机 测试 ,都 可 以 方便 地 实现 大 规模 团体 施 测 ,这 是 投射 测验 无 法 达到 的 。 自 陈 量 表 的 记分 
和 解释 十 分 客观 ,不 容易 受 个 人 因素 影响 。 

(二 ) 自 陈 量 表 的 缺点 

1. 受 作伪 和 社会 赞许 效应 影响 

在 能 力 测验 中 ,比如 四 选 一 的 选择 题 ,完全 不 会 的 被 试 猜 对 的 概率 是 25%。 能 力 测验 产 
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生 的 偏差 ,往往 是 可 以 明确 量化 的 。 但 自 陈 量 表 的 选项 没有 对 错 之 分 ,被 试 伪装 或 迎合 社会 
期 望 的 程度 很 难 用 概率 来 计算 。 因 为 每 个 人 的 生活 经 历 ,行为 习惯 甚至 作答 时 的 情绪 状态 
有 较 大 差别 ,所 以 受 作 伪 和 社会 赞许 效应 影响 的 程度 也 就 有 很 大 的 不 同 。 因 此 ,有 的 自 陈 量 
表 使 用 效 度量 表 来 检查 被 试 的 作答 态度 。 

2. 受 反应 定 势 影响 

被 试 的 反应 定 势 会 影响 能 力 测验 的 得 分 。 比 如 是 非 题 ,如 果 被 试 喜欢 答 “ 是 ”, 那 么 在 完 
全 不 会 的 时 候 他 可 能 会 得 一 半 的 分 。 因 此 ,有 些 考 试 干脆 让 答案 * 否 ”的 项 目 略 多 。 同 样 地 ， 
反应 定 势 也 可 能 会 影响 人 格 测验 的 得 分 ,让 自 陈 量 表 得 分 产生 混乱 。 对 于 反应 定 势 ,目前 在 
测验 过 程 中 还 缺乏 十 分 有 效 的 消除 措施 ,一般 也 是 借助 效 度量 表 进 行事 后 分 析 。 

3. 效 标 效 度 相对 偏 低 

相对 能 力 测验 而 言 , 自 陈 量 表 信 效 度 偏 低 。 究 其 原因 ,作伪 、 社 会 赞许 效应 、 反 应 定 势 都 
有 一 定 的 影响 。 但 还 有 很 重要 的 一 个 方面 是 , 自 陈 量 表 的 效 标 多 半 是 心理 学 者 、 精 神 病 学 者 
或 教师 所 作 的 评定 ,这 种 评定 本 身 效 度 可 能 就 偏 低 ,所 以 就 有 可 能 影响 自 陈 量 表 的 效 标 效 
度 。 有 些 自 陈 量 表 是 由 某 种 理论 推演 而 来 的 ,本 身 尚 不 完善 ,还 有 待 进一步 进行 实验 验证 或 
临床 验证 。 

要 解决 自 陈 量 表 的 上 述 问 题 ,还 需要 进行 长 期 的 研究 。 例 如 ,为 降低 被 试 主观 因素 对 自 
陈 量 表 的 影响 ,我 们 也 可 以 采用 其 他 形式 的 测验 ,比如 我 们 接 下 来 要 介绍 的 投射 测验 ,其 相 
对 于 自 陈 量 表 来 说 ,表面 效 度 低 , 受 被 试 动机 等 因素 影响 较 小 。 除 此 之 外 ,也 有 人 认为 情境 
判断 测验 和 条 件 推理 测验 也 能 有 效 降 低 社会 赞许 效应 的 影响 。 


第 三 节 投射 测验 


1921 年 ,瑞士 精神 病 学 家 罗 夏 (H. Rorschach) 编 制 的 墨迹 测验 ,被 认为 是 投射 测验 的 开 
端 。 此 后 ,投射 测验 逐渐 发 展 起 来 ,编制 技术 呈现 出 多 样 化 的 趋势 。 除 了 墨迹 技术 外 ,还 有 
图 片 技术 (如 主题 统 觉 测验 ) 言语 技术 (如 词语 联想 测验 、 句 子 完成 测验 ) 和 表演 技术 (如 绘 
画 测 验 ,游戏 测验 和 玩具 测验 ) 等 。 

从 实践 上 看 ,投射 技术 起 源 于 临床 ,至 今 仍然 主要 是 临床 医生 或 心理 医生 的 工具 ,其 中 
有 些 是 直接 由 针对 精神 病人 的 疗法 演化 而 来 。 从 理论 上 看 ,大 多 数 投射 技术 都 是 从 传统 和 
现代 精神 分 析 学 派 那里 吸收 了 丰富 的 营养 。 


一 、 投 射 测验 简介 


(一 ) 投射 测验 的 性 质 

投射 是 指 个 人 对 客体 特征 的 想象 式 解释 ,在 这 种 解释 中 ,个 人 具有 将 自己 身上 发 生 的 心 
理 过 程 无 意识 地 附着 在 客体 身上 的 倾向 。 换 名 话 说 ,投射 是 个 人 把 自己 的 思想 、 态 度 、 愿 望 、 
情绪 ,性 格 等 心理 特征 无 意识 地 反映 在 对 事物 的 解释 之 中 的 心理 倾向 。 由 于 心理 投射 的 作 
用 ,人 们 常常 把 无 生命 的 事物 看 成 是 有 生命 的 事物 ,把 无 意义 的 现象 解释 成 有 意义 的 现象 。 
在 这 种 情况 下 ,个 人 对 客体 特征 的 投射 性 解释 所 反映 的 不 是 客体 本 身 的 性 质 ,而 是 解释 者 自 
己 的 心理 特征 。 因 此 ,运用 投射 技术 测量 个 人 对 特定 事物 的 主观 解释 ,就 可 以 获得 对 受 测 者 
人 格 特征 的 认识 。 
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投射 技术 作为 一 个 心理 测量 术语 ,是 1938 年 由 主题 统 觉 测验 的 编制 者 莫 瑞 (H. A. 
Murray) 等 人 最 早 提出 的 ,但 作为 一 种 心理 测量 的 技术 早 在 1921 年 之 前 就 已 有 人 开始 探索 
并 实际 应 用 了 。1939 年 ,弗兰克 明 (L. K. Frank) 曾 述 了 投射 技术 的 内 涵 及 其 重要 性 ,他 认为 
投射 技术 能 够 唤醒 被 试 内 心 世界 或 人 格 特征 的 不 同 表现 形式 ,从 而 在 对 测验 项 目的 反应 中 
投射 出 被 试 内 在 的 需要 和 愿望 。 

(二 ) 投射 测验 的 理论 基础 

投射 测验 重 在 探讨 人 的 无 意识 心理 特征 ,对 受 测 者 在 测验 上 反应 的 解释 就 不 可 避免 
地 受到 精神 分 析 理 论 的 影响 。 精 神 分 析 理 论 强调 人 的 行为 受到 无 意识 内 驱 力 的 推动 。 这 
些 内 驱 力 受到 压抑 ,无 法 通过 意识 觉察 , 却 影响 着 人 们 的 行为 。 因 此 ,直接 了 解 一 个 人 的 
动机 、 情 感 、 欲 望 等 是 不 可 能 的 。 但 是 ,如 果 我 们 将 某 种 意义 不 确定 的 刺激 情境 作为 引导 ， 
那么 受 测 者 将 会 在 不 知 不 觉 中 把 自己 无 意识 结构 中 的 愿望 、 要 求 .动机 等 特征 投射 在 对 刺 
激情 境 的 解释 之 中 。 

基于 该 理论 ,投射 测验 假定 : 人 们 对 外 部 事物 的 解释 都 是 有 其 心理 原因 的 ; 
加 人 们 对 外 部 刺激 的 反应 虽然 决定 于 刺激 本 身 的 特征 ,但 是 反应 者 人 格 特征 、 当 时 的 
心理 状态 以 及 对 未 来 的 期 望 等 心理 因素 也 会 渗透 在 他 对 刺激 的 反应 过 程 之 中 ;@ 正 是 
因为 个 人 的 人 格 会 无 意识 地 表现 在 其 对 刺激 情境 的 解释 之 中 ,所 以 只 要 通过 向 受 测 者 
提供 意义 模糊 的 刺激 情境 ,让 受 测 者 对 其 作出 解释 ,就 可 以 从 受 测 者 的 解释 中 了 解 受 测 
者 的 人 格 特征 。 

(三 ) 投射 测验 的 特点 

投射 测验 的 基本 方式 是 向 被 试 提供 一 些 意义 模糊 的 刺激 情境 ,让 被 试 在 不 受 任何 限制 
的 情况 下 ,自由 地 对 刺激 或 情境 作出 反应 .然后 分 析 被 试 的 反应 ,推测 其 人 格 特征 。 投 射 测 
验 表现 出 如 下 特点 。 

(1) 投射 测验 的 指导 语 大 多 比较 短 , 而 且 问 的 问题 都 是 一 般 性 的 ,这 种 提问 方式 有 助 于 
被 试 很 快 地 放松 下 来 。 

(2) 投射 测验 中 的 刺激 物 或 情境 往往 是 “ 非 结 构 化 的 ”, 也 就 是 模棱两可 的 ,在 这 种 刺激 
特征 下 需要 被 试 “ 建 构 刺 激 物 的 意义 。 

(3) 被 试 在 投射 测验 中 可 以 尽 可 能 发 挥 自己 的 想象 力 ,投射 测验 不 限制 被 试 的 反应 。 

(4) 被 试 对 刺激 情境 作出 的 反应 并 不 是 单独 某 种 人 格 特质 的 体现 ,而 是 被 试 整体 人 格 
特征 的 体现 。 

(5) 刺激 越 是 模棱两可 ,引起 被 试 防御 反应 的 可 能 性 就 越 小 ,被 试 的 回答 或 操作 就 越 有 
可 能 揭示 无 意识 的 动机 、 欲 望 或 情感 。 


二 、 罗 夏 星 迹 测验 


罗 夏 墨迹 测验 是 由 瑞士 精神 病 学 家 罗 夏 于 1921 年 编制 完成 的 。 罗 夏 墨 迹 测验 材料 制 
作 相 当 简 单 , 即 在 一 张 白 纸 的 中 央 滴 一 滴 墨 汁 , 然 后 将 纸 对 折 压 平 , 墨 干 后 展开 ,就 成 了 左右 
对 称 但 不 规则 的 墨迹 图 。 罗 夏 经 过 对 上 千 种 墨迹 图 的 实验 研究 ,最 终 出 版 了 其 中 的 10 张 。 
其 中 ,5 张 是 黑白 的 ,3 张 是 彩色 的 , 另 有 2 张 是 除 黑色 外 ,还 带 有 鲜明 的 红色 。 图 8-2 是 10 
张 图 片 中 首尾 两 张 。 
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图 8-2 罗 夏 墨迹 图 首尾 两 张 


(一 ) 罗 夏 墨迹 测验 的 施 测 

罗 夏 墨迹 测验 的 施 测 一 般 需 要 经 过 以 下 4 个 阶段 。 

(1) 自由 反应 阶段 。 在 这 一 阶段 ,允许 被 试 不 受 干扰 地 自由 作出 反应 , 主 试 要 记录 被 试 
的 每 一 句 话 、 反 应 时 间 、 停 留 时 间 、 敏 感 位 置 等 。 

(2) 提问 阶段 。 在 这 一 阶段 , 主 试 询问 被 试 每 一 个 反应 是 根据 图 片 中 哪个 部 分 作出 的 ， 
引起 该 反应 的 因素 是 什么 。 

(3) 类 比 阶段 。 在 这 一 阶段 ,主要 询问 被 试 的 某 种 考虑 是 否 与 其 他 的 一 些 反应 类 似 。 

(4) 极限 测验 阶段 。 在 这 一 阶段 ,直接 问 被 试 是 否 能 看 到 某 种 东西 。 

(二 ) 罗 夏 墨迹 测验 的 记分 

罗 夏 墨迹 测验 的 记分 是 通过 记号 化 来 实现 的 。 记 号 化 是 指 对 受 测 者 的 测验 反应 进行 分 
类 ,将 具有 相似 特性 的 反应 归 类 ,并 给 予 同样 的 记号 。 记 号 化 包括 以 下 4 个 方面 。 

(1) 决定 因子 记号 。 这 是 根据 受 测 者 对 墨迹 图 反应 的 依据 所 作 的 分 类 ,主要 有 以 下 4 
种 类 别 : 形状 反应 (F) .运动 反应 (M) 、 浓 淡 反 应 (K) 和 色彩 反应 (C)。 

(2) 区 位 因子 记号 。 这 是 根据 受 测 者 对 墨迹 图 反应 的 范围 所 作 的 分 类 ,主要 有 以 下 5 
种 类 别 : 整体 反应 (W) .普通 局 部 反应 (D)、 细 微 局 部 反应 (d) 特殊 局 部 反应 (Dd) 和 空白 反 
应 (S) 。 

(3) 内 容 因子 记号 。 这 是 根据 受 测 者 对 墨迹 图 反应 的 内 容 所 作 的 分 类 ,主要 有 以 下 典 
型 的 反应 内 容 : 人 (H) ,动物 (A) .解剖 (At) .性 (Sex) .自然 (Na) .物体 (Obj) ,等 等 。 

(4) 独创 因子 记号 。 这 是 根据 受 测 者 对 墨迹 图 反应 的 独特 性 所 作 的 分 类 ,主要 有 普通 
反应 (P) 和 独创 反应 (O) 两 种 情况 。 

(=) 罗 夏 墨迹 测验 的 结果 解释 

根据 上 述 记 号 化 的 结果 ,在 决定 因子 的 心理 图 像 上 标 上 每 个 因子 的 反应 次 数 ,将 各 点 相 
连 , 即 是 受 测 者 的 人 格 图 像 。 然 后 ,结合 反应 的 区 位 、 内 容 、 独 创 性 以 及 它们 之 间 的 数量 关 
系 , 根 据 测验 手册 中 的 描述 ,就 可 以 解释 受 测 者 的 人 格 特征 。 

一 般 来 说 ,F 分 数 高 ,表示 具有 良好 的 自我 控制 能 力 , 情 绪 活 动 较为 和 谐 ;M 分 数 高 , 表 
示 具 有 想象 力 和 移 情 倾 向 ;K 分 数 高 ,可 能 预示 着 不 安 的 情绪 ;C 分 数 高 ,表示 性 格外 向 , 情 
绪 不 稳定 ;W 分 数 高 ,表示 具有 高 度 的 综合 能 力 , 但 过 高 也 表明 缺乏 精细 分 析 能 力 ;A 分 数 
高 , 且 反 应 资料 呈 无 组 织 的 状态 时 ,表示 智力 低下 ,思维 刻板 ,等 等 。 在 对 各 记号 项 目 进行 解 
释 时 ,应 该 注意 对 各 种 分 数 作 综合 性 解释 。 
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三 、 主 题 统 觉 测验 


主题 统 觉 测验 (Thematic Apperception Test . TAT ) 是 由 葛 瑞 (CH. A. Murray) 和 摩尔 根 (C. 
D. Morgan) F 1938 年 编制 的 ,后 经 过 3 次 修订 。TAT 是 一 种 窥探 受 测 者 主要 的 需要 、 动 机、 情 
绪 、 情 感 和 人 格 特征 的 方法 。 它 是 向 受 测 者 呈现 一 系列 意义 相对 模糊 的 图 片 ,并 鼓励 他 按照 图 
片 不 假 思 索 地 编 述 故事 。TAT 包括 31 张 图 片 一 一 30 张 为 各 种 模糊 情境 下 的 黑白 图 片 ,有 的 
是 人 物 ,有 的 是 景色 ,还 有 一 张 空白 图 片 。30 张 图 片 分 为 四 组 ,分 别 是 成 年 男性 组 (MD 成 年 女 
性 组 (F) 、 儿 童 男性 组 (B) 和 儿童 女性 组 (G)。 有 的 图 片 适 用 于 所 有 组 ,有 的 不 是 。 适 用 于 每 组 
的 图 片 均 为 19 张 ,再 加 1 张 空白 卡 , 共 20 张 。 图 8-3 TAT 其 中 的 一 张 图 片 。 


图 8-3 TAT 其 中 的 一 张 图 片 


TAT 的 基本 假设 是 : 人 们 在 解释 一 种 模糊 的 情境 时 ,总 是 倾向 于 使 这 种 解释 与 自己 过 
去 的 经 历 和 目前 的 愿望 相 一 致 ;在 面 对 图 片 讲 述 故 事 时 ,被 试 同样 在 利用 自己 过 去 的 经 历 ， 
并 在 所 编 的 故事 中 表达 他 们 的 感情 和 需要 。 

TAT 揭示 了 个 体 不 愿 承认 或 不 能 公开 表达 的 潜在 意向 , 它 有 助 于 确定 被 试 主要 的 需 
要 动机、 情绪 ,情感 .复杂 性 、 冲 突 以 及 附加 在 他 身上 的 外 部 压力 。 当 被 试 与 其 父母 一 起 接 
受 测试 时 ,TAT 特别 有 助 于 理解 被 试 的 人 际 关系 和 所 处 的 困境 。 

(一 ) 主题 统 觉 测验 的 施 测 

TAT 既 可 个 别 施 测 , 也 可 团体 施 测 。 个 别 施 测 的 TAT 有 两 种 形式 (A 和 B)。 形 式 A 
适用 于 具备 一 般 智力 水 平和 精神 状况 正常 的 青少年 .成 人 ;形式 B 适 用 于 低 于 一 般 智 力 水 平 
的 青少年 .成 人 及 精神 病 患者 。 

在 实施 TAT 时 ,每 个 组 的 受 测 者 都 要 完成 两 个 系列 的 测验 。 第 1 一 10 号 图 片 为 第 一 系列 ， 
第 11 一 20 号 图 片 为 第 二 系列 。 其 中 ,第 二 系列 图 片 的 情景 更 加 抽象 ,也 更 加 奇特 。 完 成 每 个 系列 
的 测验 任务 需要 1 个 小 时 左右 的 时 间 . 两 个 系列 之 间 至 少 要 间隔 一 天 。 在 测验 过 程 中 , 主 试 要 记 
录 受 测 者 所 说 的 内 容 , 如 果 笔 记 有 困难 ,那么 可 以 进行 录音 .但 前 提 是 不 能 让 受 测 者 发 觉 。 

TAT 故事 的 分 析 系 统 有 很 多 ,下 面 介绍 评分 和 解释 时 常用 的 一 种 分 析 系 统 ,包括 6 个 
因素 : 第 一 个 因素 是 确定 故事 讲述 者 最 感 兴趣 的 角色 ;第 二 个 因素 是 检验 主角 的 人 格 特性 ; 
第 三 个 因素 是 评估 主角 所 处 的 情境 ;第 四 个 因素 是 分 析 比 较 主角 的 力量 与 外 部 压力 ;第 五 个 
因素 是 考察 主题 的 复杂 性 ;第 六 个 因素 是 评价 主角 的 兴趣 与 观点 。 

(二 ) 主题 统 觉 测验 的 结果 解释 

解释 TAT 分 数 有 两 个 基本 假设 : O 对 主人 公 的 归 因 代表 着 受 测 者 人 格 的 倾向 性 ,这 种 
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倾向 性 是 受 测 者 对 过 去 和 他 所 预期 将 来 的 觉 知 , 即 受 测 者 觉 知 他 已 做 过 的 事 ; 他 想 去 做 的 
事 ;他 未 意识 到 的 一 些 基 本 的 人 格力 量 ; 他 当时 所 体验 的 情绪 和 情感 ;他 对 将 来 的 行为 的 预 
WE., O 在 主题 统 觉 测验 中 , 受 测 者 所 统 觉 的 环境 压力 也 代表 着 受 测 者 过 去 、 现 在 和 将 来 
所 知觉 的 情境 , 即 他 真正 遇 到 过 的 情境 ;他 出 于 愿望 或 恐惧 而 想象 到 的 情境 ;他 正在 统 觉 的 
情境 ;他 期 望 遇 到 的 或 害怕 遇 到 的 情境 等 。 

主 试 应 当 根据 上 述 两 个 基本 假设 ,参照 手册 中 对 各 种 需要 、 情 绪 及 压力 变量 的 基本 描 
述 ,去 解释 受 测 者 投射 在 所 编 故 事 中 的 人 格 状态 与 特征 。 


四 、 其 他 投射 测验 


(一 ) 词语 联想 测验 

词语 联想 测验 是 最 早出 现 的 投射 测验 之 一 。 它 的 做 法 是 准备 一 张 列 有 许多 单词 的 表 ， 
单词 表 上 应 该 包括 较 多 方面 的 内 容 , 比 如 金钱 方位 、 凶 器、 人 际 关系 等 方面 的 单词 ,测试 者 
读 一 个 单词 ,让 被 试 回答 由 此 单词 联想 到 的 内 容 , 并 记 下 他 的 反应 时 间 。 一 个 单词 如 果 对 被 
试 很 重要 ,反应 时 间 就 可 能 延长 (如 果 使 用 仪器 ,那么 当时 也 可 以 测 到 心跳 .皮肤 电 等 随 之 而 
起 的 变化 )。 将 对 这 些 单词 的 反应 联系 起 来 ,就 可 以 完成 对 一 个 人 心理 情结 的 了 解 ,也 可 以 
证 明 人 们 所 无 法 直接 接触 的 潜意识 的 存在 。 

词语 联想 测验 有 着 悠久 的 历史 。 高 尔 顿 在 其 1879 年 出 版 的 (心理 测量 学 实验 ) 一 书 中 
报告 了 第 一 个 词语 联想 测验 的 研究 。 词 语 联想 测验 曾 受到 心理 分 析 运动 的 巨大 影响 。 荣 格 
CC. G. Jung) 首 创 将 词语 联想 测验 用 作 临 床 诊断 方法 去 解释 患者 的 情结 。 他 的 方法 于 1910 
年 得 以 介绍 ,但 他 获得 的 大 量 结 果 直 到 1918 年 才 在 英国 得 以 公布 。 他 的 主要 贡献 是 ,使 词 
语 联想 测验 的 操作 和 解释 标准 化 。 

(二 ) 句子 完成 测验 

句子 完成 测验 (sentence completion test) 又 称 作 填 句 测验 ,是 由 联想 测验 发 展 而 成 , 佩 
ECH. F. Pern) F 1928 年 最 早 将 其 应 用 于 人 格 评定 。 这 类 测验 是 由 一 组 尚未 完成 而 需 被 试 
去 填写 的 句子 构成 ,并 且 这 些 语句 多 为 情境 性 .情绪 性 的 。 个 体 的 反应 被 认为 能 体现 个 体 的 
需要 、 冲 突 、 价 值 观 和 思维 过 程 。 在 临床 应 用 中 ,这 种 测验 也 给 被 试 提供 了 一 个 机 会 ,让 他 们 
把 一 些 比较 难为 情 的 信息 表达 出 来 , 供 临床 心理 学 家 从 中 寻找 出 诱发 冲突 的 内 容 。 

罗 特 (J. B. Rotter) 编 制 的 “未 完成 语句 测验 ”(Rotter Incomplete Sentence Blank, RISB) 
是 严格 地 进行 了 标准 化 的 句子 完成 测验 。 这 个 测验 是 在 1950 年 编制 的 ,该 测验 是 为 评定 大 
学 生 的 “人 格 顺应 ”这 一 特殊 目的 而 设计 的 ,共有 40 个 短 句 ,主要 适用 于 大 学 新 生 。 罗 特 编 
制 的 手册 提供 了 记分 指导 、 样 本 反应 和 常 模 资 料 。 记 分 是 由 三 类 反应 (冲突 的 .中 性 的 和 积 
极 的 ) 以 及 分 配给 它们 的 加 权 分 数 构成 的 。 例 如 ,如 果 对 于 句子 “我 的 母亲 ……” 的 回答 是 
“ 民 恨 我 ”, 那 么 在 冲突 的 这 类 反应 上 就 会 得 一 个 高 分 ,等 等 。 将 40 个 题目 的 得 分 相 加 ,就 可 
以 得 到 大 学 生 “ 人 格 顺应 ”的 总 分 。 

(三 ) 绘画 测验 

绘画 测验 通常 要 求 被 试 创 作 一 幅 画 ,常见 的 绘画 测验 包括 画 人 测验 、 画 树 测 验 和 房 一 
树 一 人 测验 。 绘 画 测验 一 般 在 绘画 完成 后 要 求 被 试 将 绘画 的 内 容 讲述 一 遍 。 绘 画 测验 记分 
的 因素 不 统一 ,通常 包括 绝对 大 小 、 相 对 大 小 、 遗 漏 和 扭曲 等 因素 。 

除了 上 述 罗 夏 墨迹 测验 主题 统 觉 测验 、 词 语 联想 测验 、 句 子 完成 测验 和 绘画 测验 外 ,投射 
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测验 还 有 其 他 的 形式 ,如 游戏 测验 、 玩 具 测 验 , 等 等 。 但 是 ,限于 篇 幅 , 在 此 就 不 一 一 介绍 了 。 
五 、 对 投射 测验 的 评价 


(一 ) 投射 测验 的 优 缺 点 

投射 测验 以 一 种 更 间接 的 方式 测量 人 格 ,比较 容易 隐藏 测验 目的 ,降低 了 被 试 的 防御 
性 ,在 一 定 程度 上 , 比 自 陈 量 表 更 好 地 降低 了 社会 赞许 性 或 动机 等 因素 的 影响 。 投 射 测验 的 
主要 优点 有 以 下 几 个 方面 。 

第 一 ,投射 测验 不 易 伪 装 。 没 有 相关 专业 背景 的 人 ,在 接受 投射 测验 时 很 难 了 解 到 测验 
意图 ,采用 投射 技术 的 测验 其 测量 目的 通常 比较 隐蔽 。 

第 二 ,投射 测验 可 用 于 幼儿 以 及 文化 程度 低 的 或 有 言语 障碍 的 成 人 。 

第 三 ,投射 测验 的 操作 简单 易 行 , 对 年 龄 ,文化 程度 等 没有 特别 的 限制 。 

第 四 ,投射 测验 注重 考察 人 格 的 整体 特征 ,更 加 符合 人 格 的 本 来 面貌 。 

但 是 ,投射 测验 也 存在 着 一 些 缺点 ,如 下 。 

第 一 ,投射 测验 的 假设 不 一 定 具 有 合理 性 。 实 证 研究 表明 ,个 人 对 模棱两可 的 刺激 的 反 
应 不 一 定 能 投射 出 其 人 格 特征 ,这 是 因为 被 试 的 反应 不 仅 受 测验 刺激 的 影响 ,还 受 被 试 的 言 
语 能 力 、 生 理 状 况 以 及 所 处 环境 等 因素 的 影响 。 

第 二 , 主 试 的 评分 往往 与 从 业 年 限 、 知 识 储备 等 因素 有 关 , 存 在 一 定 的 主观 性 。 

第 三 , 非 结构 化 的 刺激 不 仅 对 被 试 而 言 是 模棱两可 的 ,对 主 试 也 是 如 此 ,这 就 增加 了 对 
被 试 反应 解释 的 不 确定 性 。 

(二 ) 投射 测验 的 信 效 度 问 题 

1. 投射 测验 的 信 度 问题 

由 于 投射 测验 记分 方法 的 特殊 性 和 常 模 资料 的 不 足 , 因 而 评分 者 信 度 成 为 考察 投射 测 
验 信 度 的 重点 。 目 前 ,对 评分 者 信 度 考察 较 多 的 是 评分 一 致 性 。 这 实际 是 不 够 的 ,这 是 因为 
即使 记分 高 度 一 致 ,但 由 于 投射 测验 不 能 像 自 陈 量 表 那 样 可 以 根据 常 模 进 行 解释 ,因而 同 
个 记录 对 不 同 的 主 试 来 说 ,也 可 以 有 不 同 的 解释 。 因 此 ,有 研究 者 提出 ,除了 参考 评分 者 信 
度 外 ,还 应 该 参考 最 后 的 综合 解释 。 然 而 ,目前 有 关 这 方面 的 研究 还 很 少 。 并 且 , 从 目前 对 
评分 一 致 性 进行 计算 的 结果 来 看 .投射 测验 的 评分 者 信和 度 并 不 是 十 分 理想 。 

相 较 于 能 力 测验 ,投射 测验 的 重 测 信和 度 较 差 。 这 是 因为 ,投射 测验 是 通过 对 外 显 行为 的 
测量 而 间接 地 推 知 被 试 的 人 格 特征 ,而 外 显 行 为 容易 受到 情境 因素 的 影响 。 当 对 被 试 以 重 
复 测量 的 方式 前 后 两 次 施 测 投射 测验 时 ,这 两 次 测验 可 能 会 引发 被 试 两 种 不 同 的 心理 历程 ， 
这 样 所 得 的 信和 度 必然 会 较 低 。 

2. 投射 测验 的 效 度 问题 

对 于 任何 测验 来 说 , 效 度 是 测验 质量 高 低 的 重要 指标 。 然 而 ,由 于 人 格 特质 存在 难以 作 
出 明确 的 界定 ` 效 标 行为 或 效 标 样本 不 容易 建立 存在 反应 偏向 的 干扰 等 问题 ,导致 投射 测 
验 的 效 度 较 低 。 还 有 些 投射 测验 对 效 度 并 不 是 很 重视 ,有 些 投 射 测验 虽然 提供 了 效 度 资料 ， 
但 是 往往 缺乏 完整 性 和 一 致 性 。 此 外 ,有 关 投 射 测验 交叉 效 度 和 增益 效 度 方面 的 研究 并 不 
多 。 因 此 ,从 一 个 样本 上 所 建立 的 预测 效 度 或 区 分 效 度 , 往 往 无 法 推广 到 其 他 的 样本 上 。 

为 了 解决 这 些 问 题 , 不 少 投射 测验 专家 正 致力 于 心理 计量 学 的 研究 , 即 对 原 有 的 投射 测 
验 进行 更 加 规范 的 标准 化 ,使 之 更 符合 心理 测量 学 的 要 求 。 
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第 四 节 人 格 测验 的 理论 问题 


一 、 将 质 与 情境 的 交互 作用 


人 格 特质 作为 一 种 心理 建构 ,是 看 不 见 摸 不 着 的 ,只 能 通过 外 显 行为 (这 里 的 行为 主要 
是 指 非 认 知 方面 的 行为 ) 间 接地 加 以 推论 。 而 行为 的 差异 到 底 是 因为 个 体 的 人 格 特质 的 差 
异 导致 的 ,还 是 由 于 个 体 所 处 的 情境 导致 的 呢 ? 目前 ,还 存在 着 争议 。 

特质 论 者 认为 ,人 的 行为 在 不 同 的 情境 中 具有 一 致 性 ,表现 为 一 定 的 行为 模式 。 个 体 行 
为 模式 的 差异 是 由 于 人 格 特质 的 差异 引起 的 ,人 格 特质 的 稳定 性 使 得 它 可 以 用 来 预测 个 体 
未 来 的 行为 ,因而 人 格 测验 的 目的 就 是 对 这 些 特质 加 以 测量 。 传 统 的 人 格 测验 大 多 是 以 此 
思想 为 指导 编制 而 成 的 。 

情境 论 者 对 以 上 观点 持 反对 的 意见 ,他 们 认为 ,个 体 的 行为 具有 高 度 的 动态 性 , 它 常 
情境 的 不 同 而 有 所 变化 ,因此 情境 才 是 决定 行为 的 主要 因素 。 在 一 情境 中 ,个 体 是 否 表现 出 
某 种 行为 , 受 该 情境 的 客观 因素 和 个 体 过 去 在 类 似 情况 中 的 学 习 经 历 的 影响 。 例 如 ,人 们 党 
说 “入 乡 随 俗 “ 随 遇 而 安 " 等 。 情 境 论 者 认为 ,一 个 人 的 适应 ,本 来 就 是 学 习 去 对 不 同 的 情境 
作 不 同 的 反应 的 过 程 , 情 境 因 素 ( 包 括 物理 环境 、 社 会 期 望 和 角色 认定 等 ) 比 人 格 特质 对 个 体 
行为 的 影响 更 大 。 这 种 观点 表现 在 人 格 测验 上 ,就 是 跨 文化 测验 的 兴起 。 

以 上 两 种 观点 都 揭示 了 行为 的 某 些 方面 特征 ,但 都 很 难 完 全 解释 复杂 的 行为 。 于 是 ,两 
种 观点 的 追随 者 逐渐 达成 共识 ,认为 行为 的 特质 解释 和 情境 解释 可 以 共存 ,行为 是 由 特质 和 
情境 变量 的 交互 作用 决定 的 。 体 现在 人 格 测验 的 编制 上 ,就 是 要 将 特质 和 情境 结合 起 来 
其 中 ,一 种 途径 是 构造 出 特定 情境 类 型 下 的 特质 概念 ; 另 一 种 途径 是 涉及 特质 与 状态 的 区 
分 。 按 前 者 编制 的 典型 人 格 测验 有 考试 焦虑 调查 表 (Test Anxiety Inventory,TADI) 等 ; 按 后 
者 编制 的 典型 人 格 测验 有 状态 一 特质 焦虑 调查 表 (State-Trait Anxiety Inventory, 
STAD, 


二 、 人 格 测验 的 反应 偏向 问题 


尽管 人 格 测验 要 求 被 试 真实 地 作答 ,但 是 仍 存在 反应 偏向 (response bias) 的 问题 。 有 的 
被 试 的 作答 反应 与 事实 并 不 相符 合 。 特 别 是 在 罪犯 精神 病 的 司法 鉴定 时 ,由 于 罪犯 有 强烈 
的 把 自己 描绘 成 一 个 精神 失常 的 患者 的 愿望 ,这 时 反应 偏向 尤为 明显 。 有 的 学 者 将 反应 偏 
向 区 分 为 两 种 类 型 : 反应 定 势 (response sets) 和 反应 风格 (response styles) 。 反 应 定 势 是 指 
被 试 有 意 或 无 意 地 掩盖 其 真实 情况 ,而 按 他 (她 ) 自 己 或 别人 所 希望 表现 的 形象 进行 作答 。 
常见 的 反应 定 势 是 社会 赞许 动机 (social desirability motivation), 它 是 指 被 试 在 测验 上 有 依 
社会 所 期 望 的 行为 方式 作答 的 倾向 。 例 如 ,在 应 聘 工作 时 ,一 个 人 在 人 格 测验 上 很 可 能 尽力 
去 表现 自己 是 如 何 诚实 .乐观 .合群 和 进取 等 ,但 这 些 可 能 并 非 其 真实 的 特性 。 反 应 定 势 的 
一 个 重要 特征 是 它 与 测验 的 内 容 有 关 , 被 试 者 从 测验 的 内 容 上 可 以 判断 并 决定 如 何 改 变 其 
反应 趋向 。 而 反应 风格 则 与 测验 的 内 容 无 关 , 是 指 当 测 验 的 刺激 或 意义 并 不 明确 时 ,或 当 被 
试 不 知道 如 何 反应 时 ， A 种 特别 的 反应 方式 。 例 如 ,在 EPQ 中 ,有 些 被 试 对 
其 中 的 一 些 问题 并 不 了 解 时 ,常常 会 作出 肯定 (或 否定 ) 的 回答 。 
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为 了 防止 被 试 作答 时 产生 反应 偏向 ,一些 人 格 测验 采用 了 一 些 特殊 的 技术 ,如 大 部 分 人 
格 测验 项 目的 编制 尽量 采用 中 性 的 语句 ,防止 被 试 从 文字 中 识别 出 所 要 测量 的 特质 。 爱 德 
华 个 人 偏好 量 表 (EPPS) 采 用 了 连 选 技术 , 它 要 求 被 试 从 两 个 或 多 个 同样 可 接受 但 效 度 不 一 
样 的 描述 词 或 短语 中 进行 选择 ,这 种 配对 短语 可 以 是 都 令 人 满意 或 都 不 令 人 满意 的 。 迫 选 
技术 在 一 定 程 度 上 是 可 以 控制 社会 赞许 动机 这 一 影响 因素 的 ,但 已 有 研究 表明 它 并 不 能 完 
全 排除 这 种 影响 ,而 且 它 最 后 得 到 的 分 数 排除 了 关于 个 体 特 征 的 绝对 强度 的 信息 。 另 有 一 
些 人 格 测验 采用 了 测 谎 量 表 (lie detection scale) 对 被 试 作答 的 真实 程度 进行 测量 ,如 EPQ 
等 。 还 有 一 些 人 格 测验 采用 了 校正 量 表 (correction scale) 对 测验 的 掩饰 影响 进行 校正 ,如 
MMPI 等 。 但 是 ,这 些 防 止 被 试 作答 时 产生 反应 偏向 的 方法 的 有 效 性 ,还 尚未 得 到 研究 上 的 
有 力 证 明 。 

尽管 在 人 格 测验 中 设计 了 种 种 方法 控制 或 降低 反应 偏向 ,但 是 如 果 被 试 蓄意 隐瞒 时 , 那 
么 也 仍 难 防止 。 目 前 ,人 格 测验 的 研究 者 更 加 重视 施 测 者 的 作用 ,要 求 施 测 者 尽量 去 寻求 被 
试 的 合作 ,使 其 按 指导 语 诚实 地 作答 或 反应 。 


本 章 我 们 详细 地 介绍 了 两 种 类 型 的 人 格 测验 , 即 自 陈 量 表 和 投射 测验 。 自 陈 量 表 是 目 
前 使 用 最 为 广泛 的 人 格 测验 工具 , 它 具 有 项 目 结构 清晰 ,意义 明确 , 施 测 使 用 简单 方便、 经 
济 , 记 分 和 分 数 解释 较为 明确 等 优点 。 但 同时 也 存在 被 试 作答 容易 受 被 试 社会 期 望 \ 动 机 和 
反应 偏向 的 影响 ,提供 的 备 选 选项 并 不 一 定 完全 包含 了 被 试 实际 人 格 特征 等 缺点 。 

在 本 章 中 我 们 介绍 了 一 些 常用 的 自 陈 量 表 。 其 中 ,WPDS、JAS、MAS 和 EPPS 是 采用 
他 辑 或 理论 分 析 法 编制 的 ;MMPI 和 CPI 是 采用 经 验 效 标 法 编制 的 ;16PF 和 EPQ 是 采用 因 
素 分 析 法 编制 的 ;NEO-PI-R 是 采用 综合 法 编制 的 。 

投射 测验 的 特点 是 刺激 结构 不 明确 ,意义 较为 模糊 ,被 试 的 反应 不 受 限 制 ,必须 凭 自己 
的 想象 才能 作答 ,从 而 可 把 个 人 经 验 、 情 感 和 愿望 赋予 刺激 。 目 前 ,使 用 较 多 的 投射 测验 主 
要 有 罗 夏 墨迹 测验 .TAT 等 。 投 射 测验 的 优点 是 被 试 反应 比较 自由 ,测验 目的 较为 隐藏 ME 
答 较 少 受 各 种 定 势 的 影响 ,能 较 好 地 对 各 种 人 格 特征 之 间 的 关系 进行 分 析 。 但 其 缺点 是 记 
分 方法 和 分 数 解释 都 较为 复杂 , 信 效 度 也 存在 着 一 定 的 问题 。 

本 章 的 重点 和 难点 是 掌握 上 述 几 种 常用 人 格 测验 的 内 容 结构 、 编 制 目的 、 施 测 步骤 、 记 
分 方法 和 分 数 解释 。 本 章 的 中 心 概念 是 * 人 格 测验 ”。 


一 、 选 择 题 (不 定 项 选择 题 , 至 少 有 一 个 选项 是 正确 的 ) 
1. 根据 EPQ 的 常 模 资料 ,如果 一 个 被 试 在 下 量 表 上 的 工分 数 为 70, 在 N 量 表 上 的 工 
分 数 为 45 ,那么 他 的 气质 类 型 为 ) 倾 向 。 ( ) 
A. 多 血 质 B. 胆汁 质 C. 粘液 质 D. 抑郁 质 
2. EPQ 的 记分 步骤 主要 包括 ) 
A. 按 年 龄 和 性 别 常 模 换算 T 分 数 B. 作 EPQ 的 剖面 图 
C. 获得 各 量 表 的 原始 分 数 D. 数 出 Q 量 表 的 原始 分 数 
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3. EPQ 共 有 3 个 人 格 维度 的 量 表 .其 中 英文 缩写 P 指 的 是 € j 
A. 神经 质 B. 精神 质 C. 内 外 向 D. 说 谎 

4. EPQ 的 中 国 常 模特 征 是 ¢ 5 
AL 分 性 别 、 年 龄 常 模 B. 分 性 别 、 不 分 年 龄 常 模 
C. 分 性 别 、 年 龄 .城乡 常 模 D. 分 年 龄 .不 分 性 别 常 模 

5. 1987 年 第 三 次 修订 的 CPI 有 3 个 结构 量 表 , 包 括 三 大 主题 ,分 别 是 ¢ } 
A. 角色 B. 性 格 c. 能 力 D. 常 模 

6. 除 聪 慧 性 因素 外 ,16PF 的 其 他 因素 都 是 按 ( id. ( 
A. 0,1 # 1,0 Bi 1.2.3 3.2.1 
G TR AD D. 051:2 2.1.0 

7. 在 实施 16PF 测验 时 ,要 确保 被 试 每 一 测 题 只 选择 一 个 答案 ,没有 遗留 任何 测 题 。 除 

聪慧 性 因素 外 ,被 试 尽量 不 要 选择 ( ) 

A. a 答案 B. b 答案 C. ec 答案 D. d 答案 

8. 考 斯 塔 和 麦克 雷 采 用 ( ) 编 制 了 NEO 人 格调 查 表 (NEO-PI) 。 ( ) 
A. 经 验 效 标 法 B. ARA C. 综合 法 D. 敢 辑 或 理论 分 析 法 

9. MMPI 测验 的 记分 步骤 是 ( ) 
A. 计算 原始 分 数 B. 检查 Q 量 表 得 分 
C. 将 原始 分 数 转换 为 工分 数 D. 比较 各 分 量 表 原始 分 数 

10. MMPI 的 “卡片 式 " 施 测 形式 适合 于 ( ) 施 测 。 ( ) 
A. 团体 B. 个 别 C. 团体 和 个 别 D. 群体 

11. 在 下 列 MMPI 的 量 表 中 ,只 有 ( ) 是 临床 量 表 。 ( ) 
A. 说 谎 B. 诈 病 C. 疑问 D. 偏执 

12. 在 MMPI 测验 中 ,L 原始 分 数 超过 ( ) 说 明 测验 无 效 。 ( ) 
A. 5 分 B. 8 分 C. 10 分 D. 15 分 

13. 下 列 哪些 测验 属于 投射 测验 ? ( ) 
A, 罗 夏 墨迹 测验 ”B. 主题 统 觉 测 验 ”C. 词语 联想 测验 D. 绘画 测验 

14. 下 列 测验 属于 自 陈 量 表 的 是 ( ) 
A. MMPI B. 16PF Cc. EPQ D. TAT 

15. 罗 夏 墨迹 测验 彩色 墨迹 图 的 张 数 是 ( i 
A. 10 B. 5 c. 3 Di 2 

二 、 案 例题 


1. 某 求助 者 的 EPQ 测验 结果 如 表 8 一 6 所 示 , 试 回答 以 下 问题 。 
表 8-6 某 求助 者 的 EPQ 测验 结果 


量 表 原始 分 数 T 分 数 
P 8 70 
E 19 73 
N 20 72 
L 6 40 
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(1) 根据 表 8 一 6 的 测验 结果 ,可 以 判断 该 求助 者 的 气质 类 型 为 ( ) 
A. 多 血 质 B. 胆汁 质 C. 粘液 质 D. 抑郁 质 

(2) 在 表 8-6 中 ,该 求助 者 的 工 量 表 得 分 为 40, 说 明 他 € 2 
A. 掩饰 性 高 B. 掩饰 性 低 C. 内 向 D. 外 向 

(3) 在 表 8-6 中 ,该 求助 者 的 P 量 表 得 分 为 70, 说 明 他 E 


A. 孤独 ,不 关心 他 人 ,难以 适应 环境 ,不 近 人 情 , 感 觉 迟 钝 ,喜欢 干 奇特 的 事情 
B. 能 与 他 人 相处 ,能 较 好 地 适应 环境 ,态度 温和 ,不 粗暴 , 善 解 人 意 
C. 焦虑 .担忧 , 遇 到 刺激 有 强烈 的 情绪 反应 ,以 致 出 现 不 够 理智 的 行为 
D. 性 格 内 向 ,好 静 , 富 于 内 省 ,情绪 较 稳定 ,喜欢 有 秩序 的 生活 方式 
2. 某 求助 者 的 MMPI 测验 结果 如 表 8 一 7 所 示 , 试 回答 以 下 问题 。 
表 8-7 某 求 助 者 的 MMPI 测验 结果 
Q L F K Hs D Hy Pd Mf Pa Pt Se Ma Si 


原始 分 数 15 3 证 18 413 28 20 18 31 9 22 22 18 40 
K 校正 分 数 22 25 40 40 22 
T 分 数 ( 非 K 校 正 ) 39 46 60 58 53 46 47 58 40 55 49 49 57 54 
工分 数 (K 校正 ) 64 51 65 54 51 
(1) 根据 表 8-7 效 度量 表 的 结果 ,可 将 该 求助 者 的 MMPI 结果 判断 为 ( ) 
A. 有 效 B. 无 效 
C. 无 法 判断 D. 尚 需 结合 临床 量 表 判 断 


(2) 根据 表 8 -7 的 结果 ,该 求助 者 在 Pa 量 表 上 所 得 到 的 工分 数 ,意味 着 他 的 分 数 
( ) 
A. 低 于 常 模 平 均值 0. 5 个 标准 差 B. 低 于 常 模 平 均值 1 个 标准 差 
C. 高 于 常 模 平均 值 0. 5 个 标准 差 D. 高 于 常 模 平 均值 1 个 标准 差 
(3) 按照 MMPI 中 国 常 模 的 标准 , 表 8 一 7 临床 量 表 中 哪些 量 表 可 能 存在 异常 ? ( ) 


A. Hs,Mf,Pt,Si B. Hs,Pt.Si 
GC. Hs,Pt D. Pt.Pd 
(4) 根据 表 8 — 7 的 结果 ,下 列 哪 组 症状 最 有 可 能 出 现在 该 求助 者 身上 ? ( ) 


A. 悲观 失望 .无 助 .淡漠 
B. 怪异 .行为 退缩 .幻觉 人 格 解体 
C. 胆 小 怕 事 、 退 缩 .不 善 交际 
D. 紧张 焦虑 、 对 身体 过 度 关注 
三 、 简 答题 
1. 简 述 人 格 测验 的 种 类 。 
2. 简 述 自 陈 量 表 CPI 的 结构 。 
3. 简 述 罗 夏 墨 迹 测验 和 主题 统 觉 测验 的 结果 解释 。 
4. 简 述 投射 测验 的 信 效 度 问 题 。 
5. 简 述 人 格 测验 的 反应 偏向 问题 。 
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第 九 章 ”心理 评定 量 表 


心理 评定 量 表 可 以 有 针对 性 地 了 解 被 评估 对 象 某 方面 的 心理 状况 ,不 需要 在 现场 导 引 
出 需 考 察 的 心理 现象 ,而 是 要 受 评 者 本 人 或 熟悉 受 评 者 的 他 人 根据 平日 的 观察 ,对 需 考 察 的 
心理 现象 作出 评定 。 所 评定 的 内 容 , 不 仅 有 心理 方面 的 ,还 有 生理 和 社会 方面 的 。 心 理 评定 
量 表 主要 包括 心理 卫生 综合 评定 量 表 、 情 绪 及 相关 问题 评定 量 表 、 应 激 及 相关 问题 评定 量 表 
等 。 在 本 章 中 ,题目 (item) ,又 称 为 项 目 、 条 目 或 试题 。 


第 一 节 ”心理 卫生 综合 评定 量 表 


心理 卫生 是 影响 人 们 健康 的 重要 因素 。 对 心理 卫生 状况 的 了 解 ,是 卫生 行政 管理 部 门 制 
订 提高 人 们 健康 计划 和 防治 疾病 措施 的 重要 依据 。 心理 卫 生 的 服务 对 象 可 能 是 病人 
(patients) ,也 可 能 是 来 访 者 (clients)。 前 者 是 在 生理 或 精神 上 有 障碍 ,需要 治疗 ;后 者 是 在 情绪 
或 环境 适应 上 遇 到 困惑 ,需要 帮助 。 为 了 更 好 地 治疗 或 帮助 心理 卫生 的 服务 对 象 , 就 要 全 面 了 
解 其 身心 状况 。 心 理 卫 生 评估 在 这 些 方面 发 挥 了 重要 作用 。 接 下 来 ,我 们 介绍 几 个 常用 的 心 
理 卫生 综合 评定 量 表 。 


一 、 症 状 自 评 量 表 (SCL 一 90) 


(一 ) 症状 自 评 量 表 简 介 

症状 自 评 量 表 , 又 称 症状 检查 清单 (Symptom Checklist 90, SCL - 90), 有 时 也 叫 作 
Hopkin's 症状 检查 清单 (HSCL)。 现 版 本 由 德 若 伽 提 斯 (L. R. Derogatis) F 1975 年 编制 。 
SCL -90 是 当前 使 用 最 为 广泛 的 精神 障碍 或 心理 疾病 门诊 检查 量 表 之 一 ,适用 于 16 岁 以 上 
的 正常 人 ,也 适用 于 精神 科 或 心理 咨询 门诊 的 成 年 病人 。 

(二 ) 量 表 的 内 容 与 结构 

SCL - 90 量 表 共有 90 个 项 目 . 包 含有 较 广 泛 的 精神 症状 学 内 容 , 从 感觉 .情感 .思维 、 意 
识 , 行 为 直至 生活 习惯 人际 关 系 、 饮 食 睡 眠 等 , 均 有 所 涉及 ,并 采用 10 个 因子 分 ,来 反映 10 
个 方面 的 心理 症状 。10 个 因子 的 含义 及 其 所 包含 的 项 目 如 下 。 

(1) 躯体 化 (somatization) : 包括 第 1、4、12、27、40、42、48、49、52、53、56、58 题 , 共 12 
项 。 它 主要 反映 主观 的 躯体 不 适 感 ,包括 心血 管 . 胃 肠 道 . 呼 吸 等 系统 的 主 述 不 适 ,以 及 头 
痛 \ 背 痛 ` 肌 肉 酸 痛 和 焦虑 等 其 他 躯体 表现 。 

(2) 强迫 症状 (obsessive-compulsive) :包括 第 3、9、10、28、38、45、46、51、55、65 题 , 共 10 
项 。 它 与 临床 强迫 症 表现 的 症状 、 定 义 基本 相同 ,主要 指 那 种 明知 没有 必要 ,但 又 无 法 摆脱 
的 无 意义 的 思想 、 冲 动 , 行 为 等 表现 。 还 有 一 些 比较 一 般 的 感知 障碍 ,如 “脑子 变 空 了 ”“ 记 忆 
力 不 好 ”等 ,也 在 这 一 因子 中 反映 出 来 。 

(3) 人 际 关系 敏感 (interpersonal sensitivity) :包括 第 6、21、34、36、37、41、61、69、73 题 ， 


共 9 项 。 它 主要 指 某 些 个 人 不 自在 感 和 自卑 感 ,尤其 是 在 与 他 人 相 比 较 时 更 加 突出 。 自 卑 、 
忻 来 以 及 在 人 际 关系 中 明显 不 能 很 好 相处 的 人 ,往往 是 这 一 因子 获 高 分 的 对 象 。 

(4) 抑郁 (depression) :包括 第 5、14、15、20、22、26、29、30、31、32、54、71、.79 题 , 共 13 项 。 
它 主要 反映 的 是 与 临床 上 抑郁 症状 群 相 联系 的 状况 。 抑 郁 苦闷 的 感情 和 心境 是 这 一 因子 的 
代表 性 症状 ,以 对 生活 兴趣 减退 、 缺 乏 活动 愿望 ,丧失 活动 力 等 为 特征 ,包括 失望 . 翡 观 ,以 及 
与 抑郁 相 联系 的 其 他 感知 及 身体 方面 的 问题 。 该 因子 中 有 几 个 项 目 包 括 了 死亡 .自杀 等 
ak. 

(5) 焦虑 (anxiety) :包括 第 2.17、.23、.33、39.57.72.78、.80.86 题 , 共 10 个 项 目 。 它 包括 
一 些 通常 在 临床 上 明显 与 焦虑 症状 相 联系 的 精神 症状 及 体验 ,一般 指 那些 无 法 静 息 .神经 过 
敏 、 紧 张 以 及 申 此 而 产生 的 躯体 征象 。 那 种 游离 不 定 的 焦虑 及 惊恐 发 作 是 本 因子 的 主要 内 
容 , 还 包括 一 个 反映 “解体 "的 项 目 。 

(6) 敌对 (hostility) :包括 第 11、24、63、67、74、81 题 , 共 6 项 。 它 主要 从 思维 、 情 感 及 行 
为 三 方面 来 反映 受 检 者 的 敌对 表现 ,其 项 目 包 括 从 厌烦 、 争 论 、. 摔 物 直 至 争斗 和 不 可 抑制 的 
冲动 爆发 等 各 个 方面 。 

(7) 了 恐怖 (phobia anxiety) :包括 第 13、25、47、50、70、75、82 题 , 共 7 项 。 它 与 传统 的 恐 
怖 状态 或 广场 恐怖 所 反映 的 内 容 基 本 一 致 ,包括 出 门 旅行 . 空 卫 场地 .人 人群、 公共 场合 及 交通 
工具 等 引起 恺 怖 的 因素 。 此 外 ,还 有 反映 社交 恺 怖 的 项 目 。 

(8) 偏执 (paranoid ideation) :包括 第 8、18、43、68、76、83 题 , 共 6 项 。 它 是 一 个 十 分 复 
杂 的 概念 ,包括 一 些 基本 内 容 , 主 要 是 指 思维 方面 的 ,如 投射 性 思维 敌对、 猜疑 .关系 妄想 、 
被 动 体验 与 夸大 等 。 

(9) 精神 病 性 (psychoticism) :包括 第 7、16、35、62、77、84、85、87、88、90 题 , 共 10 项 。 它 
包含 了 一 些 幻 听 思维 播 散 、 被 控制 感 ,思维 被 插入 等 反映 精神 分 裂 症状 的 项 目 。 

(10) 其 他 : 包括 第 19、44、59、60、64、66、89 题 , 共 7 个 项 目 。 它 主要 反映 睡眠 及 饮食 情况 。 

(三 ) 量 表 的 实施 与 解释 

1. 施 测 步骤 

(1) 在 开始 评定 前 , 先 由 工作 人 员 把 总 的 评分 方法 和 要 求 向 受 检 者 交代 清楚 ,然后 让 其 
作出 独立 的 .不 受 任何 人 影响 的 自我 评定 。 

(2) 对 于 文化 程度 低 的 自 评 者 ,可 由 工作 人 员 逐 项 念 给 他 听 , 并 中 性 而 不 带 任何 暗示 和 
偏向 地 把 问题 本 身 的 意思 告诉 他 。 

(3) 评定 的 时 间 范 围 是 “现在 ”或 者 是 “最 近 一 周 内 ”的 实际 感觉 。 

(4) 评定 结束 时 ,由 受 检 者 本 人 或 测试 者 逐一 核查 , 凡 有 漏 评 或 者 重复 评定 的 , 均 需 提 
醒 受 检 者 再 次 考虑 评定 ,以 免 影 响 分 析 的 准确 性 。 

2. 评分 标准 

SCL- 90 的 每 一 个 项 目 均 采取 5 级 评分 制 , 具 体 说 明 如 下 。 

(1) 没有 : 自觉 无 该 项 症状 。 

(2) 轻 度 : 自觉 有 该 项 症状 ,对 受 检 者 有 轻微 的 影响 。 

(3) 中 度 : 自觉 有 该 项 症状 ,对 受 检 者 有 一 定 的 影响 。 

(4) 偏重 : 自觉 常 有 该 项 症状 ,对 受 检 者 有 相当 程度 的 影响 。 

(5) 严重 : 自觉 该 症状 的 频 度 和 强度 都 十 分 严重 ,对 受 检 者 有 严重 的 影响 。 
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这 里 所 指 的 “影响 ”, 包 括 症状 所 致 的 痛苦 和 烦恼 ,还 包括 症状 造成 的 心理 社会 功能 损害 。 
“ 轻 度 “ 中 度 “ 偏 重 " 和 “严重 ”的 具体 定义 ,应 由 受 检 者 自己 去 体会 ,不 必 作 硬 性 规定 。 

SCL 一 90 有 两 种 评分 方法 ,分 别 为 1~5 的 5 级 评分 和 0~4 的 5 级 评分 。 无 论 是 哪 种 
评分 方法 ,其 统计 指标 均 为 两 项 , 即 总 分 和 因子 分 。 下 面 以 1 一 5 的 5 级 评分 为 例 。 

(1) 总 分 

D 总 分 : 90 个 项 目 所 得 分 之 和 ,能 反映 其 病情 的 严重 程度 。 

© 总 均 分 ; 总 分 /90, 表 示 从 总 体 情况 看 ,该 受 检 者 的 自我 感觉 位 于 1 一 5 级 的 哪 一 个 分 
值 程度 上 。 

© 阳性 项 目 数 : 单项 分 为 2 一 5 的 项 目 数 ,表示 受 检 者 在 多 少 个 项 目 上 呈现 “有 ”症状 。 

© 阴性 项 目 数 : 单项 分 为 1 的 项 目 数 ,表示 受 检 者 “没有 ”症状 的 项 目 有 多少。 

© 阳性 症状 均 分 : (总 分 一 阴性 项 目 数 )/ 阳 性 项 目 数 ,表示 受 检 者 在 “有 ”症状 项 目 中 的 
平均 分 数 ,反映 该 受 检 者 自我 感觉 不 佳 的 项 目 , 其 严重 程度 究竟 介 于 哪个 范围 。 

(2) 因子 分 

SCL - 90 共 包 括 10 个 因子 , 即 所 有 90 个 项 目 分 为 10 个 大 类 。 每 一 因子 反映 受 检 者 某 
一 方面 的 情况 ,因而 通过 因子 分 可 以 了 解 受 检 者 的 症状 分 布 特点 ,并 可 作 轮 廓 图 (前 析 图 ) 分 
析 , 这 使 得 结果 描述 更 为 直观 和 清晰 ,因子 分 的 计算 公式 如 下 : 

因子 分 = 组 成 某 一 因子 的 各 项 目 总 分 /组 成 某 一 因子 的 项 目 数 

3. 结果 分 析 与 解释 

CL) 总 分 的 分 析 。 量 表 总 分 能 较 好 地 反映 心理 问题 的 严重 程度 ,这 是 设计 心理 评定 量 
表 的 最 基本 假设 。 也 就 是 说 ,问题 越 轻 , 总 分 越 低 ;问题 越 重 ,总 分 越 高 。 如 果 考 察 治疗 前 后 
量 表 总 分 的 变化 ,那么 可 以 反映 问题 的 演变 或 疗效 。 另 外 ,总 均 分 .阳性 项 目 数 以 及 阳性 症 
状 均 分 ,也 可 以 在 一 定 程度 上 代表 其 问题 的 严重 性 。 

(2) 因子 分 和 轮廓 图 的 分 析 。 如 果 把 所 有 单项 症状 的 结果 都 作为 统计 量 ,那么 不 但 处 
理 繁 复 ,而 且 由 于 症状 项 目 过 多 ,反而 不 能 给 人 以 清晰 的 印象 。 因 此 , 量 表 编 制 者 们 针对 单 
项 分 分 析 法 的 缺点 ,提出 了 量 表 的 因子 分 分 析 法 ,用 各 量 表 因 子 分 来 分 析 不 同 症状 的 分 布 特 
点 ,或 者 比较 治疗 前 后 症状 的 变化 。 因 子 分 和 轮廓 图 可 以 反映 病人 有 具体 的 症状 群 特点 ,还 可 
以 反映 靶 症 状 群 ( 靶 症 状 群 指 目 标 组 病人 的 症状 群 ) 的 治疗 效果 。 

(3) 常 模 和 分 界 值 。 按 全 国 常 模 结 果 , 如 果 采 用 1 一 5 的 5 级 评分 ,总 分 超过 160 分 ,或 
阳性 项 目 数 超过 43 项 ,或 任 一 因子 分 超过 2 分 ,那么 可 考虑 筛选 结果 为 阳性 , 需 作 进 一 步 检 
查 。 如 果 采 用 0 一 4 的 5 级 评分 ,总 分 超过 70 分 ,或 阳性 项 目 数 超过 43 项 ,或 任 一 因子 分 超 
过 1 分 ,那么 可 考虑 筛选 结果 为 阳性 , 需 作 进一步 检查 。 

4. 适用 范围 

(1) 在 精神 科 或 心理 咨询 门诊 中 ,作为 了 解 就 诊 者 或 求助 者 心理 卫生 问题 的 一 种 评定 工具 。 

(2) 在 综合 性 医院 中 , 常 以 SCL - 90 了解 躯体 疾病 求助 者 的 精神 症状 ,事实 表明 常 能 得 
到 较 满 意 的 应 用 结果 。 

(3) 应 用 SCL - 90 调查 不 同 职业 群体 的 心理 卫生 问题 ,从 不 同 侧面 反映 各 种 职业 群体 
的 心理 卫生 状况 。 

5. 注意 事项 

(1) 量 表 项 目 全 面 性 不 够 ,缺乏 “情绪 高 涨 ”思维 飘忽 ”等 项 目 , 使 其 在 躁 狂 症 或 精神 分 
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裂 症 求助 者 组 中 的 应 用 受到 一 定 限制 。 
(2) 筛选 结果 为 阳性 只 能 说 病人 可 能 患 有 心理 疾病 ,并 不 能 说 明 一 定 患 有 心理 疾病 。 
要 作出 心理 疾病 的 诊断 ,还 必须 进行 面谈 并 参照 相应 疾病 的 诊断 标准 作出 更 为 深入 地 考察 。 


二 、 大 学 生 人 格 问卷 (UPD) 


(一 ) 大 学 生 人 格 问卷 简介 

大 学 生 人 格 问卷 (University Personality Inventory,UPI) 是 为 早期 发 现 . 早 期 治疗 有 心 
理 问 题 的 大 学 生 而 编制 成 的 精神 卫生 、 人 格 健康 调查 表 。 该 调查 表 是 于 1966 年 由 日 本 大 学 
的 心理 咨询 专家 与 精神 科 医 生 集 体 编制 而 成 的 。1991 年 ,由 日 本 学 生 相 谈 学 会 会 长 松原 达 
截 与 清华 大 学 樊 富 环 翻 译 至 国内 。1993 年 ,由 樊 富 开 和 王建 中 等 人 主持 全国 UPI 应 用 课 
题 研究 ”, 对 UPI 的 有 关 条 目 ,筛选 标准 、 实 施 过 程 进行 了 较为 系统 地 修订 。 

UPI 主要 以 大 学 新 生 为 对 象 , 人 学 时 作 心 理 健康 调查 而 使 用 ,有 以 下 4 个 方面 的 作用 。 

CL) 全 面 了 解 新 生 入 学 时 的 心理 健康 状态 ,为 学 校 制定 有 关 教 育 政策 提供 参考 资料 。 

(2) 做 到 有 心理 问题 学 生 的 早期 发 现 ,并 提供 及 时 的 帮助 和 必要 的 治疗 。 

(3) 起 到 心理 卫生 的 宣传 作用 ,有 助 于 学 生 了 解 心理 问题 的 表现 ,增强 心理 保健 意识 。 

(4) 作为 大 学 生 心 理 健康 的 研究 手段 与 工具 。 

UPI 的 特点 是 简便 易 行 . 适 于 团体 施 测 、 信 息 量 大 、 筛 选 有 效 性 高 。UPI 测验 过 程 不 易 
引起 心理 抵抗 ,对 施 测 人 员 无 特别 要 求 。UPI 是 用 于 新 生 心 理 健康 筛选 有 心理 问题 学 生 早 
期 发 现 的 最 佳 调查 表 之 一 。 

(=) 量 表 的 内 容 与 结构 

UPI 由 三 部 分 构成 : 第 一 部 分 是 学 生 的 基本 情况 ,可 作为 问卷 分 析 时 的 参考 。 第 二 部 分 是 
问卷 本 身 , 共 60 个 项 目 。 其 中 ,第 5、20、35、50 题 是 测 伪 项 目 ,不 计 分 ;其 余 56 个 项 目 是 症状 
题 , 包 括 身 心 两 方面 的 状况 ;第 8、16、25、26 题 是 关键 项 目 , 应 给 予 更 多 的 关注 。 第 三 部 分 是 畏 
助 题 , 共 4 个 项 目 ,主要 是 为 了 了 解 受 测试 者 对 自己 身心 健康 的 评价 及 主要 困扰 问题 。 

(三 ) 量 表 的 实施 与 解释 

1. UPI 的 记分 方法 与 第 选 标准 

UPI 的 60 个 项 目 中 除 4 个 测 伪 项 目 不 计 分 外 ,其 余 56 个 项 目 做 肯定 选择 的 记 1 分 ,否定 
选择 的 记 0 分 。 测 验 完毕 后 算出 总 分 ,根据 总 分 和 4 个 关键 项 目的 作答 ,可 得 出 以 下 三 类 。 

(1) 第 一 类 筛选 标准 ( 即 可 能 有 心理 问题 的 ?满足 下 列 条 件 之 一 者 : 总 分 在 25 分 ( 包 
括 25 分 ) 以 上 者 ;@ 第 25 题 做 肯定 选择 者 ;G) 辅助 题 中 至 少 有 两 题 做 肯定 选择 者 ;@ 明确 
提出 咨询 要 求 且 属 于 心理 问题 者 。 

(2) 第 二 类 筛选 标准 ( 即 应 引起 关注 的 ) 满 足下 列 条 件 之 一 者 : 总 分 在 20 一 24 分 之 
间 者 ;@ 第 8、16、26 题 中 有 一 题 作 上 肖 定 选择 者 ;@ 辅助 题 中 只 有 一 题 作 肯 定 选 择 者 。 

G) 第 三 类 筛选 标准 , 即 不 属于 上 述 第 一 类 、 第 二 类 者 。 

上 述 筛 选 出 的 第 一 类 学 生 可 能 有 明显 的 心理 问题 ,应 尽快 约请 他 们 到 咨询 机 构 来 面谈 ， 
以 便 了 解 问题 的 性 质 与 程度 。 通 过 对 每 人 进行 15 分 钟 左右 的 面谈 ,区 分 出 A,B,C 三 类 。 

AK: 各 类 神经 症 ,属于 心理 矛盾 冲突 激烈 ,明显 影响 正常 学 习 、 生 活 者 。 对 这 类 学 生 ， 
继续 坚持 面谈 ,直至 症状 缓解 或 消除 。 

BE: 一 般 心理 问题 ,属于 适应 不 良 ,能 维持 正常 的 学 习 与 生活 者 。 对 这 类 学 生 , 面 谈 时 
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需 建立 信任 关系 ,并 告 之 有 问题 时 可 主动 前 来 咨询 。 

C 类 : 无 特殊 问题 者 ,其 症状 暂时 不 明显 或 已 解除 。 

上 述 筛选 出 的 第 二 类 学 生 也 应 引起 关注 ,有 条 件 时 可 请 来 面谈 ,一 般 过 半年 左右 再 调查 
一 次 5 
上 述 筛选 出 的 第 三 类 学 生 属 一 次 通过 者 , 即 心理 比较 健康 者 ,不 需要 请 来 面谈 。 

2. UPI 的 施 测 与 统计 分 析 

UPI 既 可 用 于 个 别 测试 ,也 可 用 于 团体 测试 。 作 为 新 生 心 理 健康 调查 ,可 在 新 生 人 学 1 个 
月 后 进行 。 测 验 前 应 结合 心理 卫生 知识 宣传 普及 ,说 明 心理 健康 对 大 学 生成 长 的 影响 ,让 学 生 
了 解 心理 问题 的 表现 及 预防 等 知识 。 同 时 ,要 向 学 生 讲 明 调 查 目的 ,打消 疑虑 ,取得 配合 。 

分 类 筛选 后 ,主动 约请 第 一 类 学 生 面 谈 , 然 后 进行 A.B、C 分 类 ,对 确 有 明显 心理 问题 的 
学 生 应 该 进行 持续 咨询 。 

除了 根据 筛选 标准 找 出 可 能 有 心理 问题 的 学 生 外 ,UPI 还 要 求 统计 以 下 指标 : 入 学 
新 生 总 人 数 ;@) 施 测 率 , 即 参 测 人 数 及 其 占 入 学 人 数 的 比率 ;@ 一 类 筛选 率 , 即 第 一 类 学 生 
的 人 数 及 其 占 施 测 人 数 的 比率 ; @ 来 谈 率 , 即 实际 来 谈 的 人 数 及 其 占 约请 人 数 的 比率 ; 
© A.B.C 三 类 学 生 的 人 数 及 其 分 别 占 来 谈 学 生 人 数 的 比率 ;@ A 类 学 生 占 全 体 施 测 学 生 人 
数 的 比率 ;@ 统计 各 项 目的 选择 频数 ;@ 总 分 分 布 统计 ;@ 不 同学 生 群 体 之 间 的 比较 。 


三 、 中 小 学 生 心 理 健康 量 表 (MHT) 


(一 ) 中 小 学 生 心 理 健康 量 表 简 介 

中 小 学 生 心 理 健康 量 表 (Mental Health Test, MHT) 是 周 步 成 等 人 于 1991 年 根据 日 本 
铃木 清 等 人 编制 的 “不 安 倾 向 诊断 测验 ”修订 而 成 的 ,主要 用 于 综合 测 查 中 小 学 生 的 心理 健 
康 状况 。 本 测验 按 焦虑 情绪 所 指向 的 对 象 和 巾 焦虑 情绪 而 产生 的 行为 这 两 个 方面 进行 测 
E. MHT 已 成 为 适用 我 国 中 小 学 生 的 标准 化 的 “心理 健康 诊断 测验 ”。 

(=) 量 表 的 内 容 与 结构 

MHT 共有 100 个 项 目 , 包 含 8 个 内 容量 表 和 1 个 效 度量 表 ( 测 谎 量 表 )。8 个 内 容量 表 
分 别 为 : 学 习 焦 虚 .对 人 焦虑 、 孤 独 倾向 、 自 责 倾向 .过 敏 倾向 .身体 症状 、 恺 惧 倾 向 .冲动 倾 
向 。8 个 内 容量 表 的 组 成 如 下 。 

(1) 学 习 焦 虑 ,由 第 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15 题 共 15 个 项 目 组 成 。 该 
分 量 表 得 分 在 8 分 以 上 属于 高 分 ,表明 被 试 对 考试 怀 有 疏 惧 心理 ,过 分 关心 考试 分 数 , 无 法 
安心 学 习 , 这 类 被 试 必须 接受 有 针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 ， 
表明 被 试 学 习 焦 虑 低 , 学 习 不 会 受到 困扰 ,能 够 正确 对 待考 试 成 绩 。 

(2) 对 人 焦虑 ,由 第 16、17、18、19、20、21、22、23、24、25 题 共 10 个 项 目 组 成 。 该 分 量 表 
得 分 在 8 分 以 上 属于 高 分 ,表明 被 试 过 分 注重 自己 的 形象 ,害怕 与 人 交往 ,退缩 ,这 类 被 试 必 
须 接受 有 针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 .表明 被 试 比较 热情 、 大 
方 , 比 较 容易 结交 朋友 。 

(3) 孤独 倾向 ,由 第 26、27、28、29、30、31、32、33、34、35 题 共 10 个 项 目 组 成 。 该 分 量 表 
得 分 在 8 分 以 上 属于 高 分 ,表明 被 试 孤独 、 抑 郁 ,不 善 与 人 交往 ,自我 封闭 ,这 类 被 试 必须 接 
受 有 针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 ,表明 被 试 比较 爱好 社交 , 喜 
欢 寻 求 刺激 ,喜欢 与 他 人 在 一 起 。 
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(4) 自 责 倾 向 ,由 第 36、37、38、39、40、41、42、43、44、45 GSE 10 个 项 目 组 成 。 该 分 量 表 
得 分 在 8 分 以 上 属于 高 分 ,这 类 被 试 自卑 ,常常 怀疑 自己 的 能 力 , 也 经 常 将 失败 .过 失 都 归咎 
于 自己 ,这 类 被 试 必 须 接受 有 针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 , 表 
明 被 试 比较 自信 ,能够 正确 看 待 失败 和 过 失 。 

(5) 过 敏 倾向 ,由 第 46、47、48、49、50、51、52、53、54、55 题 共 10 个 项 目 组 成 。 该 分 量 表 
得 分 在 8 分 以 上 属于 高 分 ,表明 被 试 过 于 敏感 ,容易 为 一 小 事 而 烦恼 ,这 类 被 试 必须 接受 有 
针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 ,表明 被 试 的 敏感 性 较 低 ,能 够 较 
好 地 处 理 日 常事 务 。 

(6) 身体 症状 ,由 第 56、57、58、59、60、61、62、63、64.、65、66、67、68、69.70 题 共 15 个 项 目 
组 成 。 该 分 量 表 得 分 在 8 分 以 上 属于 高 分 ,这 类 被 试 在 极度 焦虑 时 ,会 出 现 呕吐 失眠 、 小 便 
失禁 等 明显 症状 ,这 类 被 试 必 须 接 受 有 针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属 
于 低 分 ,表明 被 试 基本 上 没有 身体 异常 的 表现 。 

(7) 恐怖 倾向 ,由 第 71、72、73、74、75、76、77、78、79、80 题 共 10 个 项 目 组 成 。 该 分 量 表 
得 分 在 8 分 以 上 属于 高 分 ,表明 被 试 对 某 些 日 常事 务 ,如 人 群 、 黑 暗 等 有 很 严重 的 恐惧 感 ,这 
类 被 试 必须 接受 有 针对 性 的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 ,表明 被 试 基 
本 上 没有 恐惧 感 。 

(8) 冲动 倾向 ,由 第 81、83、85、87、89、91、93、95、97、99 题 共 10 个 项 目 组 成 。 该 分 量 表 
得 分 在 8 分 以 上 属于 高 分 ,表明 被 试 做 事 很 冲动 ,自制 力 较 差 ,这 类 被 试 必须 接受 有 针对 性 
的 特殊 心理 辅导 安排 。 而 得 分 在 3 分 以 下 属于 低 分 ,表明 被 试 在 行为 方面 基本 上 没有 冲动 。 

(三 ) 量 表 的 实施 与 解释 

“中 小 学 生 心 理 健康 量 表 ” 既 可 以 个 别 施 测 ,也 可 以 团体 施 测 。MHT 的 测验 问卷 和 答 
题 纸 是 彼此 分 开 的 , 施 测 时 应 给 每 个 被 试 发 一 份 *MHT 答题 纸 ”。 

MHT 是 二 级 计 分 ,每 个 项 目 都 有 “是 "和 “不 是 ”两 种 可 供 选择 的 答案 ,答题 纸 上 也 相应 
地 有 ab 两 个 可 供 选 择 的 英文 字母 。 选 择 a 的 答案 计 1 分 ,选择 b 的 答案 计 0 分 。 

在 整个 量 表 中 ,第 82、84、86、88、90、92、94、96、98、100 题 为 效 度 量 表 项 目 , 共 10 项 ,是 
用 来 测 伪 的 。 如 果 它 们 的 得 分 总 和 比较 高 ,那么 可 以 认为 该 被 试 在 作答 时 作假 ,测验 不 可 
信 。 解 释 测 验 结果 时 ,对 效 度量 表 高 分 的 被 试 需 特别 注意 ,尤其 是 得 分 在 7 分 以 上 者 ,可 以 
考虑 将 被 试 的 该 答卷 作废 ,适当 时 候 再 进行 重 测 。 

除去 效 度量 表 项 目 ,余下 的 全 部 量 表 项 目 得 分 的 总 和 , 即 为 全 量 表 分 。 全 量 表 分 从 整体 
上 表示 焦虑 程 度 是 否 强 、 焦 虑 范围 是 否 广 。 如 果 全 量 表 分 在 65 分 以 上 ,那么 就 可 以 认为 存 
在 一 定 的 心理 障碍 。 这 些 人 在 日 常生 活 中 会 有 不 适应 行为 ,有 的 可 能 表现 为 攻击 和 暴力 行 
为 等 ,对 这 些 人 需要 进行 一 定 的 心理 辅导 。 


第 二 节 ”情绪 及 相关 问题 评定 量 表 


一 、 抑 部 自 评 量 表 (SDS) 


(一 ) 抑郁 自 评 量 表 简介 
抑郁 自 评 量 表 (Self-rating Depression Scale,SDS) 是 由 美国 杜 克 大 学 华裔 精神 病 学 家 张 
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威廉 (W.K. Zung) 于 1965 年 编制 的 ,为 美国 教育 卫生 福利 部 所 推荐 的 用 于 精神 药理 学 研究 
的 量 表 之 一 。 因 使 用 简便 ,能 相当 直观 地 反映 病人 抑郁 的 主观 感受 及 其 在 治疗 中 的 变化 ， 
SDS 目前 已 广泛 应 用 于 门诊 病人 的 粗 得 ,情绪 状态 评定 以 及 调查 ,科研 等 。SDS 的 优点 是 使 
用 简单 ,不 需要 经 过 专门 的 训练 即 可 指导 自 评 者 进行 相当 有 效 的 评定 ,而 且 它 的 分 析 相 当 方 
便 。SDS 在 一 定 程度 上 能 够 了 解 被 调查 者 近期 的 心境 ,可 应 用 于 心理 咨询 门诊 中 。 

(二 ) 量 表 的 内 容 与 结构 

SDS 由 20 个 反映 抑郁 主观 感受 的 项 目 组 成 ,每 个 项 目 按 症 状 出 现 的 频 度 分 为 四 级 评分 ， 
其 中 10 个 为 正 向 评分 ,10 个 为 反 向 评分 。 每 个 项 目 相当 于 一 个 有 关 症 状 。20 个 项 目 反映 抑 
郁 状态 的 4 组 特异 性 症状 : O 精神 性 一 情感 症状 ,包含 抑郁 心境 和 哭泣 2 个 项 目 ;@ 躯体 性 障 
碍 ,包含 情绪 的 日 夜 差 异 .睡眠 障碍 .食欲 减 退 、 性 欲 减退 、 体 重 减轻 、 便 秘 、 惊 动 过 速 和 易 疲 劳 8 
个 项 目 ;@ 精神 运动 性 障碍 ,包含 能 力 减退 和 不 安 2 个 项 目 ;@ 抑郁 心理 障碍 ,包含 思考 困难 、 
无 望 感 . 易 激 惹 、 犹 玉 不 决 . 自 我 贬值 .生活 空虚 感 .无 价值 感 和 兴趣 丧失 8 个 项 目 。 

(三 ) 量 表 的 实施 与 解释 

1. 施 测 步骤 

(1) 在 自 评 者 评定 以 前 ,一 定 要 让 他 把 整个 量 表 的 填写 方法 及 每 条 问题 的 含义 都 弄 明 
白 , 然 后 作出 独立 的 ,不 受 任何 人 影响 的 自我 评定 。 对 20 个 项 目 评定 时 依据 的 等 级 标准 为 : 
O 没有 或 很 少时 间 ;@ 少 部 分 时 间 ;@ 相当 多 时 间 ;@ 绝 大 部 分 或 全 部 时 间 。 填 写 时 ,要 求 
被 试 仔细 阅读 每 一 条 ,把 意思 和 弄 明白 ,然后 根据 最 近 一 周 的 “实际 感觉 ”, 在 适当 的 数字 上 面 
“VY” 表示 。 

(2) 如 果 评 定 者 的 文化 程度 太 低 , 不 能 理解 或 看 不 懂 SDS 问题 的 内 容 , 可 由 工作 人 员 逐 
条 念 给 他 听 , 让 评定 者 独自 作出 评定 。 

(3) 评定 时 ,应 让 自 评 者 理解 反 向 评分 的 题目 ,SDS 有 10 个 反 向 项 目 ,分 别 是 第 2、5、6、 
11、12、14、16、17、18、20 题 , 若 不 能 理解 , 则 会 直接 影响 统计 结果 。 

(4) 评定 结束 时 ,工作 人 员 应 仔细 检查 一 下 评定 结果 ,应 提醒 自 评 者 不 要 漏 评 某 一 项 
目 , 也 不 要 在 相同 一 个 项 目 上 重复 评定 。 

(5) 如 果 用 以 评估 疗效 ,那么 应 在 开始 治疗 或 研究 前 让 自 评 者 评定 一 次 ,然后 至 少 应 在 
治疗 后 或 研究 结束 时 再 让 他 自 评 一 次 ,以 便 通 过 SDS 总 分 变化 来 分 析 自 评 者 症状 变化 的 
情况 。 

2. 评分 标准 

车 为 正 向 评分 题 , 则 1、2、3、4 等 级 依次 评 为 1.2、3、4 分 ; 若 为 反 向 评分 题 , 则 1、2、3、4 
等 级 依次 评 为 4.3、2、1 分 。 

待 评定 结束 后 ,把 20 个 项 目 中 的 各 项 分 数 相 加 . 即 得 到 总 粗 分 (原始 分 数 ) ,然后 将 总 粗 
分 乘 以 1. 25 后 取 整 数 部 分 ,就 得 到 标准 分 。 

3. 结果 解释 

按照 中 国 常 模 结果 ,SDS 标准 分 的 分 界 值 为 53 分 ,其 中 53 一 62 分 为 轻 度 抑郁 ,63 一 72 
分 为 中 度 抑郁 ,72 分 以 上 为 重度 抑郁 。 

4. 适用 范围 

该 量 表 可 以 评定 抑郁 症状 的 严重 程度 及 其 在 治疗 中 的 变化 ,特别 适用 于 发 现 抑郁 症 病 
人 ,其 评定 对 象 为 具有 抑郁 症状 的 成 年 人 。 
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5 注意 事项 
该 量 表 在 具体 使 用 时 ,应 注意 以 下 两 个 问题 : 一 是 SDS 主要 适用 于 具有 抑郁 症状 的 
成 年 人 ,对 心理 咨询 门诊 及 精神 科 门 诊 或 住院 精神 病人 均 可 使 用 ,但 对 严重 阻 灌 症 状 的 抑 
郁 病 人 ,评定 有 困难 ;二 是 关于 抑郁 症状 的 临床 分 级 , 除 参考 量 表 分 值 外 ,还 应 根据 临床 症 
状 ,特别 是 要 害 症状 的 程度 来 划分 抑郁 症状 的 临床 等 级 ,从 某 种 意义 而 言 , 量 表 分 值 仅 能 
作为 一 项 参考 指标 而 非 绝对 标准 。 
附 : 抑郁 自 评 量 表 (SDS) 
1. 我 觉得 闷闷不乐 ,情绪 低沉 。 
x 2. 我 觉得 一 天 之 中 早晨 最 好 。 
3. 我 一 阵 阵 回 出 来 或 觉得 想 刁 。 
4. 我 晚上 睡眠 不 好 。 
«5. 我 吃 得 跟 平常 一 样 多 。 
x# 6. 我 与 异性 密切 接触 时 和 以 往 一 样 感到 愉快 。 
7. 我 发 觉 我 的 体重 在 下 降 。 
8. 我 有 便秘 的 苦恼 。 
9. 我 心跳 比 平常 快 。 
10, 我 无 缘 无 故地 感到 疲乏 。 
* 11. 我 的 头脑 跟 平常 一 样 清 楚 。 
* 12. 我 觉得 经 常 做 的 事情 并 没有 困难 。 
13. 我 觉得 不 安 而 平静 不 下 来 。 
* 14. 我 对 将 来 抱 有 希望。 
15. 我 比 平常 容 易 生 气 激动 。 
* 16. 我 觉得 作出 决定 是 容易 的 。 
*17. 我 觉得 自己 是 个 有 用 的 人 ,有 人 需要 我 。 
x* 18. 我 的 生活 过 得 很 有 意思 。 
19. 我 认为 如 果 我 死 了 ,别人 会 生活 得 好 些 。 
* 20. 平常 感 兴趣 的 事 我 仍然 照样 感 兴趣 。 
iE. * 表示 反 向 记分 。 


二 、 贸 处 自 评 量 表 (SAS) 


(一 ) 焦虑 自 评 量 表 简介 

焦虑 自 评 量 表 (Self-rating Anxiety Scale,SAS) 是 由 美国 杜 克 大 学 华裔 精神 病 学 家 张 威 
廉 (W. K. Zung) F 1971 年 编制 的 ,从 量 表 构造 的 形式 到 具体 的 评定 方法 ,都 与 抑郁 自 评 量 
表 (SDS) 十 分 相似 。 它 是 一 个 包含 有 20 个 项 目 ,分 为 4 级 评分 的 自 评 量 表 , 主 要 用 于 评估 焦 
虑 病人 的 主观 感受 。 

(二 ) 量 表 的 内 容 与 结构 

SAS 包含 有 20 个 反映 焦虑 主观 感受 的 项 目 ,每 个 项 目 按 症状 出 现 的 频 度 分 为 4 级 评 
分 ,其 中 15 个 为 正 向 评分 题 ,5 个 为 反 向 评分 题 ,5 个 反 向 评分 题 分 别 是 第 5、9、13、17、19 
题 。SAS 采 用 4 级 评分 ,主要 评定 项 目 所 定义 的 症状 出 现 的 频 度 ,其 等 级 标准 为 :@ 没有 或 


m 
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Be a 


很 少时 间 ;@ 少 部 分 时 间 ;@ 相当 多 时 间 ;@ 绝 大 部 分 或 全 部 时 间 。 

(三 ) 量 表 的 实施 与 解释 

1. 施 测 步骤 

(1) 在 评定 之 前 ,要 让 自 评 者 把 整个 量 表 的 填写 方法 及 每 条 问题 的 含义 都 弄 明白 ,然后 
作出 独立 的 ,不 受 任何 人 影响 的 自我 评定 。 

(2) 在 开始 评定 之 前 , 先 由 工作 人 员 指 着 SAS 告诉 他 : 下 面 有 20 条 文字 ,请 仔细 阅读 
每 一 条 ,把 意思 弄 明白 ,然后 根据 您 最 近 一 周 的 实际 情况 ,在 适当 的 方 格 里 画 一 "/”。 每 一 
条 文字 后 有 4 个 方 格 ,分别 代表 没有 或 很 少 ( 时 间 )、 少 部 分 时 间 、 相 当 多 时 间 、 绝 大 部 分 或 全 
部 时 间 。 

(3) 如 果 评 定 者 的 文化 程度 太 低 而 不 能 理解 或 看 不 懂 SAS 问题 内 容 , 可 由 工作 人 员 逐 
条 念 给 他 听 , 但 需 让 评定 者 独立 地 作出 评定 。 

2. 评分 标准 

必须 着 重 指出 ,SAS 的 20 个 项 目 中 ,第 5.9、13、17、19 条 共 5 个 项 目的 计 分 ,必须 反 向 
计算 。 若 为 正 向 评分 题 , 则 1、2、3、4 等 级 依次 评 为 1.2、3、4 分 ; 若 为 反 向 评分 题 , 则 1、2、3、4 
等 级 依次 评 为 4.3、2、1 分。 

待 评定 结束 后 ,把 20 个 项 目 中 的 各 项 目 分 数 相 加 , 即 得 到 总 粗 分 (原始 分 数 ), 然 后 将 总 
粗 分 乘 以 1. 25 后 取 整 数 部 分 ,就 得 到 标准 分 。 

3. 结果 解释 

按照 中 国 常 模 结果 ,SAS 标准 分 的 分 界 值 为 50 分 ,其 中 50 一 59 分 为 轻 度 焦虑 ,60 一 69 
分 为 中 度 焦虑 ,69 分 以 上 为 重度 焦虑 。 

4, 适用 范围 

SAS 适用 于 具有 焦虑 症状 的 成 年 人 。 同 时 , 它 与 SDS 一 样 ,具有 较 广泛 的 适用 性 。 

5. 注意 事项 

(1) 评定 的 时 间 范 围 ,应 强调 是 “现在 ?或 “过 去 一 周 ”。 

(2) 在 评定 结束 时 ,工作 人 员 应 仔细 地 检查 一 下 自 评 结果 ,应 提醒 自 评 者 不 要 漏 评 某 一 
项 目 ,也 不 要 在 相同 一 个 项 目 里 打 两 个 钧 ( 即 不 要 重复 评定 )。 

(3) SAS 应 在 开始 治疗 前 由 自 评 者 评定 一 次 ,然后 至 少 应 在 治疗 后 (或 研究 结束 时 ) 再 
让 他 自 评 一 次 ,以 便 通过 SAS 总 分 变化 来 分 析 自 评 者 症状 的 变化 情况 。 如 果 在 治疗 期 间或 
研究 期 间 评定 ,那么 其 间隔 可 由 研究 者 自行 安排 。 
附 : 焦虑 自 评 量 表 (SAS) 
1. 我 觉得 比 平常 容易 紧张 和 着 急 。 
2. 我 无 缘 无 故地 感到 害怕 。 
3. FRA b ITAL BR HE 
4. 我 觉得 我 可 能 将 要 发 疯 。 
< 5. 我 觉得 一 切 都 很 好 ,也 不 会 发 生 什么 不 幸 。 
6. FFA AE TT Mi 
7. 我 因为 头痛 、 颈 痛 和 背 痛 而 苦恼 。 
8. 我 感觉 容易 衰弱 和 疲乏 。 
9. 我 觉得 心平 气 和 ,并 且 容 易 安静 坐 着 。 
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10. 我 觉得 心跳 很 快 。 
11. 我 因为 一 阵 阵 头 学 而 苦恼 。 
12. 我 有 泽 倒 发 作 或 觉得 要 举 倒 似 的 。 
*13. 我 呼 气 吸 气 都 感到 很 容易 。 
14. 我 手脚 麻木 和 刺 痛 。 
15. 我 因为 胃痛 和 消化 不 良 而 苦恼 。 
16. 我 常常 要 小 便 。 
*17. 我 的 手 常常 是 干燥 温暖 的 。 
18. 我 脸红 发 热 。 
*19. 我 容易 入 睡 并 且 一 夜 睡 得 很 好 。 
20. 我 做 恶 梦 。 
注 : * 表示 反 向 记分 。 


=., 4 # Ë (SES) 


(一 ) 自尊 量 表 简介 

无 论 是 在 社会 交流 中 还 是 在 日 常生 活 中 ,自尊 都 是 一 个 很 流行 也 很 重要 的 概念 。 按 照 
一 般 观 点 ,自尊 是 人 们 赞赏 .重视 .喜欢 自己 的 程度 。 自 尊 是 一 个 可 以 被 定量 分 析 的 概念 , 它 
是 人 们 对 自己 的 价值 .长 处 ,重要 性 等 作出 总 体 的 情感 上 的 评价 ,这 同时 也 是 自尊 评定 的 理 
论 基 础 , 即 评价 一 个 人 对 自己 的 态度 能 反映 出 该 对 象 的 自尊 程度 。 

自尊 量 表 (Self-Esteem Scale,SES) 是 由 罗 森 伯 格 (M. Rosenberg) F 1965 年 编制 的 ,后 
由 季 益 宣 和 于 欣 翻 译 并 介绍 到 中 国 。SES 最 初 设计 是 用 于 评定 青少年 关于 自我 价值 和 自我 
接纳 的 总 体感 受 。 

(二 ) 量 表 的 内 容 与 结构 

该 量 表 由 10 个 项 目 组 成 ,设计 中 充分 考虑 了 测定 的 方便 。 受 试 者 直接 报告 这 些 描述 是 
否 符合 他 们 自己 的 实际 情况 ,分 为 四 级 评分 :“1” 表 示 非 常 符合 ,“2” 表 示 符 合 ,“3” 表 示 不 符 
合 ,“4” 表 示 很 不 符合 。 

(三 ) 量 表 的 实施 与 解释 

SES 的 10 个 项 目 中 ,有 5 个 正 向 评分 题 和 5 个 反 向 评分 题 ,被 试 根据 自己 的 实际 情况 
作答 。 其 中 ,5 个 反 向 评分 题 分 别 是 第 3、5、8、9、10 题 。SES 最 初 的 样本 来 自 美 国 纽约 州 随 
机 选 出 的 10 所 中 学 中 的 5 024 名 高 中 、 初 中 学 生 。 

对 于 第 1、2、4、6、7 题 ( 正 向 评分 题 ) “很 不 符合 " 记 1 分 ,“ 不 符合 ” 记 2 分 ,“ 符 合 ” 记 3 
分 ,非常 符合 ” 记 4 分 ;对 于 第 3.5.8.9、10 题 ( 反 向 评分 题 ) “很 不 符合 ” 记 4 分,“ 不 符合 ” 
记 3 分 符合” 记 2 分 ,非常 符合 ” 记 1 分 。 待 评定 结束 后 ,把 10 个 项 目 中 的 各 项 目 分 数 相 
加 , 即 得 到 总 分 。SES 的 总 分 范围 是 10 一 40 分 ,分 值 越 高 ,自尊 程度 就 越 高 。 

SES 已 被 广泛 应 用 , 它 简 明 、 易 于 评分 ,是 对 自己 的 积极 或 消极 感受 的 直接 估计 。 此 外 ， 
除了 标准 的 10 个 项 目的 版 本 外 ,在 原始 量 表 基 础 上 建立 起 来 的 6 个 项 目 版 本 ,更 适用 于 低 
于 高 中 学 生年 龄 的 人 群 。 但 是 ,SES 也 存在 一 些 问题 ,如 回答 这 些 项 目 时 易 受 社会 期 望 的 影 
响 、 在 大 学 生 人 群 中 评分 容易 偏 低 、 被 试 对 第 8 题 的 理解 存在 与 西方 文化 不 同 的 含义 .第 8 
题 某 种 程度 存在 意义 混淆 致使 被 试 易 作 出 正 向 评分 的 答题 倾向 等 。 
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附 : 自尊 量 表 (SES) 

1. 我 感到 我 是 一 个 有 价值 的 人 ,至 少 与 其 他 人 在 同一 水 平 上 。 
2. 我 感到 我 有 许多 好 的 品质 。 

«3, 归根结底 ,我 倾向 于 觉得 自己 是 一 个 失败 者 。 
4. 我 能 像 大 多 数 人 一 样 把 事情 做 好 。 

* 5. 我 感到 自己 值得 自豪 的 地 方 不 多 。 

6. 我 对 自己 持 肯定 态度 。 

7. 总 的 来 说 ,我 对 自己 是 满意 的 。 

x 8. 我 希望 我 能 为 自己 赢得 更 多 尊重 。 

* 9. 我 确实 时 常 感到 毫 无 用 处 。 

* 10. 我 时 常 认为 自己 一 无 是 处 。 

TE: * 表示 反 向 记分 。 


第 三 节 ”应 激 及 相关 问题 评定 量 表 


一 、 生 活 事件 量 表 (LES) 


(一 ) 生活 事件 量 表 简介 

自 20 世纪 30 年 代 舍利 (H. Selye) 提 出 应 激 概念 以 来 ,生活 事件 作为 一 种 心理 社会 应 激 
源 , 其 对 身心 健康 的 影响 引起 了 广泛 的 关注 。 使 用 “生活 事件 量 表 " 的 目的 是 对 精神 刺激 进 
行 定性 与 定量 地 分 析 。 

在 研究 生活 事件 评定 的 初级 阶段 ,人 们 只 注重 那些 较 重大 的 生活 事件 ,因而 只 统计 某 一 
段 时 期 内 较 大 事件 发 生 的 次 数 。 次 数 越 多 ,表示 遭受 的 精神 刺激 越 强 。 这 种 评定 方法 非常 
简单 ,不 足 之 处 是 显而易见 的 ,不 同 的 生活 事件 引起 的 精神 刺激 可 能 大 小 不 一 ,如 丢失 一 件 
衣物 与 经 历 一 场 浩 动 是 不 能 等 量 齐 观 的 。 于 是 ,人 们 相信 ,每 种 生活 事件 理应 具有 其 “客观 ” 
的 刺激 强度 。 

从 20 世纪 60 年 代 起 ,人 们 对 各 种 生活 事件 的 “客观 定量 "有 了 较 多 的 研究 兴趣 。 
其 中 ,最 有 代表 性 的 人 物 是 美国 的 河 利 姆 斯 (T. H. Holmes)。 他 和 拉 河 (Rahe) 于 1967 
年 编制 了 著名 的 “社会 重新 适应 评定 量 表 ”(Social Readjustment Rating Scale, SRRS) 。 
SRRS 的 理论 假定 是 : 任何 形式 的 生活 变化 都 需要 个 体 动 员 机 体 的 应 激 资源 去 作 新 的 
适应 ,因而 会 产生 紧张 。SRRS 的 计算 方法 是 在 累计 生活 事件 次 数 的 基础 上 进行 加 权 
计 分 , 即 对 不 同 的 生活 事件 给 予 不 同 的 权重 ,然后 累加 得 其 总 分 。SRRS 加 权 的 依据 是 
来 自 一 个 5000 人 的 常 模 。 在 制定 常 模 时 , 河 利 姆 斯 等 人 事先 规定 “丧偶 事件 ?为 1 000 
分 , “结婚 事件 ”为 500 分 ,让 被 调查 者 以 上 述 两 事件 的 评分 为 标准 , 按 自己 直接 或 间接 
的 经 验 去 评估 其 他 各 种 生活 事件 的 分 数 。 然 后 , 求 得 每 种 事件 (5 000 人 ) 的 平均 值 ,将 
平均 值 除 以 10 ,再 取 其 整数 作为 该 事件 的 标准 分 。SRRS 选用 了 调查 中 发 生 频 率 较 高 
的 43 项 生活 事件 。SRRS 在 一 定 程度 上 反映 了 美国 当时 社会 生活 的 实际 情况 ,是 科学 
地 、 客 观 地 评定 生活 事件 的 开端 。SRRS 被 推广 到 许多 国家 ,再 研究 的 结果 显示 ,相关 
系数 多 在 0. 85 一 0. 99 ,被 公认 为 评定 生活 事件 的 有 效 工 具 , 甚 至 有 人 认为 其 可 以 作为 
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“ 金 标准 "以 检测 其 他 生活 事件 量 表 的 效 度 。 

REF 20 世纪 80 年 代 初 引进 SRRS, 使 用 者 根据 我 国 的 实际 情况 对 生活 事件 的 某 些 项 
目 进行 了 修订 或 删 增 , 其 中 包括 张 明 园 等 人 1987 年 编制 的 “生活 事件 量 表 ”, 张 一 等 人 1989 
年 编制 的 “生活 事件 量 表 ”, 刘 贤 臣 等 人 1987 年 编制 的 * 青 少年 生活 事件 量 表 ”, 以 及 我 们 这 
里 将 要 介绍 的 由 杨 德 森 和 张 亚 林 1986 年 编制 的 “生活 事件 量 表 ”。 这 些 量 表 有 的 将 百分制 
改 为 十 分 制 , 有 的 则 沿用 河 利 姆 斯 的 记分 方法 ,而 杨 德 森 和 张 亚 林 提 出 的 按 事 件 的 影响 程 
度 .持续 时 间 和 发 生 次 数 的 记分 最 有 特色 。 另 外 , 杨 德 森 和 张 亚 林 1986 年 编制 的 “生活 事件 
量 表 ” 也 强调 了 根据 受 试 者 的 主观 感受 对 生活 事件 作出 定性 与 定量 地 评定 ,又 对 正 性 和 负 性 
生活 事件 作出 了 区 分 。 

(=) 量 表 的 内 容 与 结构 

杨 德 森 和 张 亚 林 于 1986 年 编制 的 生活 事件 量 表 (Life Event Scale,LES) 共 包括 48 条 我 
国 较 常见 的 生活 事件 ,分 为 三 个 方面 的 问题 : 一 是 家 庭 生活 方面 的 问题 (28 条 ) ;二 是 工作 学 
习 方 面 的 问题 (13 条 ) ;三 是 社交 及 其 他 方面 的 问题 (7 条 )。 有 具体 条 目 见 表 9 一 1。 

表 9-1 生活 事件 量 表 条 目 举例 


家 庭 生活 方面 的 问题 工作 学 习 方面 的 问题 社交 及 其 他 方面 的 问题 
(1) 恋爱 或 订婚 (29) 待业 ,无 业 (42) 好 友 重 病 或 重伤 
(2) 恋爱 失败 、 破 裂 (30) 开始 就 业 (43) 好 友 死 亡 


(3) 结婚 GD 高 考 失 败 (44) BARS HE EG MIE 


注 : 若 被 试 认为 有 表 中 未 列 生活 事件 , 则 可 以 自己 填 人 量 表 最 未 尾 所 留 空 栏 中 ,并 作出 相应 地 评价 。 
(=) 量 表 的 实施 与 解释 
1. 施 测 步骤 
LES AF AWER ,填写 者 须 仔 细 阅 读 和 领会 指导 语 ,然后 逐条 一 一 过 目 。 根 据 调 查 者 
的 要 求 ,填写 者 首先 将 某 一 时 间 范 围 内 (通常 为 一 年 内 ) 的 事件 记录 下 来 。 有 的 事件 虽然 发 
生 在 该 时 间 范 围 之 前 ,但 是 如 果 影 响 深远 并 延续 至 今 ,那么 可 作为 长 期 性 事件 记录 。 然 后 ， 
由 填写 者 根据 自身 的 实际 感受 而 不 是 按 常理 或 伦理 道德 观念 去 判断 那些 经 历 过 的 事件 对 本 
人 来 说 是 好 事 还 是 坏事 ? 影响 程度 如 何 ? 影响 持续 的 时 间 有 多 久 ? 对 于 量 表 内 已 列 出 但 并 
未 经 历 的 事件 应 一 一 注 明 “未 经 历 ”, 不 留 空白 ,以 防 遗 漏 。 
2. 评分 标准 
一 次 性 的 事件 如 流产 .失窃 要 记录 发 生 次 数 ,长 期 性 事件 如 住房 拥挤 .夫妻 分 居 等 不 到 
半年 记 为 1 次 ,超过 半年 记 为 2 次。 影响 程度 分 为 5 个 等 级 ,从 毫 无 影响 到 影响 极 重 分 别 记 
为 0.1.2.3.4 分 , 即 无 影响 一 0 分 、 轻 度 =1 分 .中 度 一 2 分 ,重度 =3 分 、 极 重 一 4 分 。 影 响 持 
续 时 间 分 为 三 个 月 内 ,半年 内 一 年 内 、 一 年 以 上 共 4 个 等 级 ,分 别 记 为 1.2.3、4 分 。 
生活 事件 刺激 量 的 计算 方法 : 
某 事件 刺激 量 = 该 事件 影响 程度 分 X 该 事件 持续 时 间 分 X 该 事件 发 生 次 数 
正 性 事件 刺激 量 == 全 部 好 事件 刺激 量 之 和 
负 人 性 事件 刺激 量 一 全 部 坏事 件 刺激 量 之 和 
生活 事件 总 刺激 量 = 正 性 事件 刺激 量 十 负 人 性 事件 刺激 量 
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另外 ,还 可 以 根据 研究 需要 , 按 家 庭 生 活 方面 的 问题 、 工 作 学 习 方面 的 问题 和 社交 及 其 
他 方面 的 问题 进行 分 类 统计 。 

3. 结果 解释 

LES 总 分 越 高 反映 个 体 承 受 的 精神 压力 越 大 。95% 的 正常 人 一 年 内 的 LES 总 分 不 超 
过 20 分 ,99% 的 不 超过 32 分 。 负 性 生活 事件 的 分 值 越 高 对 身心 健康 的 影响 越 大 , 正 性 生活 
事件 的 分 值 意义 尚 待 进一步 的 研究 。 

4. 适用 范围 

LES 适用 于 16 岁 以 上 的 正常 人 或 具有 神经 症 、 身 心 疾病 等 求助 者 ,主要 应 用 包括 以 下 
几 个 方面 。 

(1) 神经 症 、 身 心 疾病 各 种 躯体 疾病 及 重 性 精神 疾病 的 病因 学 研究 。 

(2) 指导 心理 治疗 、 危 机 干预 ,使 心理 治疗 和 医疗 干预 更 有 针对 性 。 

(3) 甄别 高 危 人 群 ,预防 精神 疾病 和 身心 疾病 ,对 LES 高 者 加 强 预防 工作 。 

(4) 指导 正常 人 了 解 自己 的 精神 负荷 ,维护 身心 健康 ,提高 生活 质量 。 

5. 注意 事项 

(1) 注意 调查 的 时 间 范 围 ,只 计 研 究 所 规定 的 时 限 内 发 生 的 生活 事件 ,在 指导 语 中 需 加 以 
说 明 , 如 过 去 3 个 月 、 半 年 或 一 年 内 , 即 某 年 某 月 某 日 至 某 年 某 月 某 日 期 间 , 是 否 曾 发 生 下 列 
事件 。 

(2) 为 了 保证 该 生活 事件 确 在 评定 要 求 的 时 限 内 ,对 每 条 作 肯 定 回答 ( 即 曾 发 生 ) 的 事 
件 , 还 要 让 受 检 考 说 明 具 体 的 发 生 时 间 , 以 便 核查 。 这 样 做 的 男 一 优点 在 于 ,还 可 将 一 次 收 
集 的 资料 (如 一 年 内 ) 做 多 种 时 限 处 理 ( 如 3 个 月 内 .6 个 月 内 和 一 年 内 )。 但 是 ,调查 时 间 不 
宜 过 长 ,以免 因 记忆 不 可 靠 影响 资料 的 准确 性 。 

(3) 一 般 应 向 受 检 者 本 人 进行 调查 。 如 果 从 知情 者 那里 获得 资料 ,那么 应 说 明 资 料 来 
源 、 知 情 者 与 受 检 者 的 关系 ,评定 中 应 采取 询问 法 。 如 果 是 让 受 检 者 和 白 行 填写 ,那么 也 应 在 
备注 中 说 明 。 

(四 ) 量 表 的 评价 

由 于 该 量 表 能 够 对 正 性 和 负 性 生活 事件 进行 定性 与 定量 地 评定 ,从 而 能 够 为 客观 分 析 
影响 人 们 身心 健康 的 心理 社会 刺激 的 性 质 和 强度 ,提供 有 价值 的 评估 手段 ,在 心理 健康 领域 
得 到 了 广泛 运用 。 

但 是 ,从 心理 评估 技术 角度 看 ,该 量 表 并 非 十 分 完善 : 一 是 大 多 数量 表 内 容 只 适用 于 一 
般 人 群 的 一 般 性 生活 事件 评估 ,而 对 于 特殊 人 和 群 或 不 同 职业 特殊 情境 下 的 人 群 ,如 某 病 种 人 
群 . 战 争 状 态 人 群 等 ,针对 性 较 差 ;二 是 对 既往 某 段 时 间 发 生 的 事件 进行 回忆 和 评定 ,难免 受 
被 评定 者 当时 的 认 知 状态 和 情绪 状态 的 影响 ,如 遗忘 所 致 的 对 事件 的 严重 程度 评分 过 高 或 
过 低 等 ,都 有 可 能 使 结果 的 可 靠 性 受到 影响 。 

近年 来 ,有 研究 者 采用 即时 记录 发 生 的 生活 事件 及 身心 状态 的 方法 ,作为 生活 事件 量 表 
评定 的 补充 ,使 生活 事件 评定 结果 更 为 可 靠 。 


二 、 和 社会 支持 评定 量 表 (SSRS) 


(一 ) 社会 支持 评定 量 表 简介 
20 世纪 70 年 代 初 ,学 术 界 对 社会 支持 和 身心 健康 的 关系 进行 了 大 量 的 研究 ,多 数学 者 
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认为 ,良好 的 社会 支持 有 利于 身心 健康 ,而 劣 性 的 社会 支持 则 有 损 于 身心 健康 。 社 会 支持 一 
方面 对 应 激 起 缓冲 作用 ; 另 一 方面 对 良好 情绪 起 维持 作用 。 为 了 提供 评定 社会 支持 的 工具 ， 
许多 研究 者 设计 了 相关 的 评定 量 表 。 目 前 ,国外 较 有 影响 的 社会 支持 评定 量 表 一 般 多 采用 
多 维度 评价 方法 。 例 如 , 萨 勒 生 (Sarason) 等 人 1981 年 编制 的 “社会 支持 问卷 "(SSQ) ,共有 
27 个 条 目 , 分 为 两 个 维度 : 一 是 获得 社会 支持 的 程度 , 即 在 需要 的 时 候 能 够 依靠 别人 的 程 
度 , 主 要 涉及 客观 支持 ;二 是 对 所 获得 支持 的 满意 程度 , 即 对 支持 的 主观 体验 是 否 感到 满意 ， 
以 及 满意 的 程度 如 何 , 主 要 涉及 主观 支持 。 享 德 森 (Hendeson) 等 人 1981 年 编制 的 “社会 交 
往 调查 表 ”(ISST) ,分 为 社会 支持 的 可 利用 度 和 自我 感觉 到 的 社会 关系 的 适合 度 两 个 维度 。 

1986 年 ,考虑 到 SSQ 和 ISSI 等 国外 流行 的 问卷 条 目 繁多 , 且 其 中 相当 一 部 分 条 目 不 太 符 
合 中 国 国情 ,我 国学 者 肖 水 源 本 着 有 效 和 简洁 的 原则 ,在 参考 国外 有 关 资 料 的 基础 上 ,自行 设 
计 了 只 有 10 个 条 目的 “社会 支持 评定 量 表 ”。 该 量 表 认为 ,社会 支持 从 性 质 上 可 以 分 为 三 类 : 
一 是 客观 的 .可见 的 实际 上 的 支持 , 既 包 括 物质 上 的 直接 援助 ,也 包括 社会 网 络 、 团 体 关系 (如 
家 庭 ,婚姻 ,朋友 、 同 事 ) 的 存在 与 帮助 等 ;二 是 主观 的 ,体验 到 的 情感 上 的 支持 ,是 指 个 体 在 社 
会 中 受到 尊重 ,被 支持 和 理解 的 情感 体验 和 满意 程度 ,与 个 体 的 主观 感受 密切 相关 ;三 是 除 客 
观 的 支持 和 主观 的 支持 外 ,社会 支持 还 应 包括 个 体 对 社会 支持 的 利用 度 。 个 体 对 社会 支持 的 
利用 度 存在 着 个 体 差异 ,有 些 人 虽 可 获得 支持 ,但 却 拒 绝 别 人 的 帮助 ,并 且 , 人 与 人 的 社会 支持 
是 相互 作用 的 过 程 , 一 个 人 在 支持 别人 的 同时 ,也 为 获得 别人 的 支持 打下 了 基础 。 因 此 , 肖 水 
源 认为 ,对 社会 支持 的 评定 有 必要 把 对 支持 的 利用 度 视 为 社会 支持 的 第 三 个 维度 。 

(二 ) 量 表 的 内 容 与 结构 

这 里 介绍 的 社会 支持 评定 量 表 (Social Support Rating Scale,SSRS) 是 由 肖 水 源 于 1986 
年 编制 的 。 该 量 表 采 用 客观 支持 和 主观 支持 二 分 类 的 社会 支持 理念 ,结合 作者 自己 提出 的 
对 支持 的 利用 度 来 构建 量 表 框架 。 该 量 表 共 有 10 个 条 目 ,包括 客观 支持 (3 条 ) .主观 支持 (4 
条 ) 和 对 支持 的 利用 度 (3 条 ) 三 个 维度 ,其 部 分 条 目 见 表 9 一 2。 


表 9-2 社会 支持 评定 量 表 条 目 举 例 


1. 您 有 多 少 关系 密切 ,可 以 得 到 支持 和 帮助 的 朋友 ? (只 选 一 项 ) 
(1) 一 个 也 没有 

(2) 1~24 

(3) 3 一 5 个 

(4) 6 个 或 6 个 以 上 


2, 近 一 年 来 您 : (只 选 一 项 ) 

(1) 远离 家 人 , 且 独 居 一 室 

(2) 住处 经 常 变动 ,多 数 时 间 和 陌生 人 住 在 一 起 
D 和 同学 .同事 或 朋友 住 在 一 起 

(4) 和 家 人 住 在 一 起 


3. 您 与 邻居 : (只 选 一 项 ) 

(1) 相互 之 间 从 不 关心 ,只 是 点 头 之 交 
(2) 遇 到 困难 可 能 稍微 关心 

(3) 有 些 邻 居 都 很 关心 您 

(4) 大 多 数 邻 居 都 很 关心 您 
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(=) 量 表 的 实施 与 解释 

1. 施 测 步骤 

实施 测验 时 , 受 检 者 应 该 按照 各 个 问题 的 具体 要 求 ,根据 自 己 的 实际 情况 填写 。 评 定 
的 时 间 范 围 应 考虑 每 个 条 目的 具体 要 求 ,一 般 应 根据 受 测 者 本 人 惯用 的 方式 和 情况 进行 
评定 。 

2. 评分 标准 

(1) 条 目的 记分 方法 

第 1~4 条 ,8 一 10 条 : 每 条 只 选 一 项 ,选择 (1)、(2)、(3)、(4) 项 分 别 记 1、2、3、4 分 。 

第 5 条 分 A.B.C.D.E 共 5 项 , 记 总 分 ,每 项 从 无 到 全 力 支持 分 别 记 1 一 4 分 , 即 “ 无 记 
1 分 ,“ 极 少 ” 记 2 分 ,“ 一 般 " 记 3 分 ,“ 全 力 支持 ” 记 4 分 。 

第 6.7 条 如 回答 “无 任何 来 源 ” 记 0 分 ,回答 “下 列 来 源 ” 者 ,有 几 个 来 源 就 记 几 分 。 

(2) 量 表 的 统计 指标 

总 分 : 10 个 条 目 评分 之 和 。 

客观 支持 分 : 第 2.6、7 条 评分 之 和 。 

主观 支持 分 : 第 1,3,4,5 条 评分 之 和 。 

对 支持 的 利用 度 : 第 8.910 条 评分 之 和 。 

3. 适用 范围 

了 解 被 试 社会 支持 的 特点 及 其 与 心理 健康 .精神 疾病 和 各 种 躯体 疾病 的 关系 。 

(四 ) 量 表 的 评价 

作者 试用 该 量 表 对 128 名 二 年 级 大 学 生 进 行 测试 , 量 表 总 分 为 34. 56 士 3.73。 两 个 月 重 
测 总 分 一 致 性 为 0.92, 各 条 目 一 致 性 在 0. 89 一 0. 94 之 间 , 表 明 该 量 表 具 有 较 好 的 重 测 信 度 。 

FE Ti AR EAP 1988 年 将 该 量 表 应 用 于 对 深圳 移民 的 心理 健康 研究 ,发 现 本 地 组 社会 支 
持 总 分 高 于 迁居 组 。 肖 水 源 等 人 于 1991 年 和 1992 年 应 用 病例 配对 方法 研究 应 激 、 社 会 支 
持 等 社会 与 心理 因素 对 消化 性 溃疡 的 影响 ,证实 社会 支持 水 平 与 消化 性 溃疡 的 发 生 及 复原 
有 一 定 的 关系 。 从 以 上 这 些 研 究 结果 看 ,社会 支持 水 平 确实 可 以 在 一 定 程度 上 预测 个 体 身 
心 健康 水 平 ,表明 该 量 表 具 有 较 好 的 预测 效 度 。 

据 不 完全 统计 , 自 1986 年 以 来 ,社会 支持 评定 量 表 已 在 国内 100 多 项 研究 中 应 用 ,并 被 
译 为 日 文 用 于 一 项 国际 协作 研究 。 从 反馈 回来 的 结果 看 ,该 量 表 的 设计 基本 合理 ,条 目 易于 
理解 无 歧义 ,具有 较 好 的 信 度 和 效 度 。 


三 、 应 对 方式 问卷 (CSQ) 


(一 ) 应 对 方式 问卷 简介 

应 对 作为 应 激 与 健康 的 中 介 机 制 ,对 身心 健康 的 保护 起 着 重要 作用 。 有 研究 发 现 , 个 
体 在 高 应 激 状态 下 ,如果 缺 乏 社 会 支持 和 良好 的 应 对 方式 ,那么 心理 损害 的 危险 度 可 达 
43.3%% ,为 普通 人 和 群 危险 度 的 两 倍 。 但 是 , 当 个 体面 对 应 激 环境 时 , 哪 一 类 或 哪 一 种 应 对 
方式 是 良好 的 呢 ? 如 何 测量 或 评估 个 体 的 应 对 方式 呢 ? 这 些 问 题 的 解决 是 一 项 比较 困难 
的 工作 。 一 般 认为 ,应 对 是 一 种 包含 多 种 策略 的 、 复 杂 的 、 多 维度 的 过 程 。 目 前 ,应 对 方式 
的 评定 主要 采取 两 种 方法 : 一 是 让 受 试 者 自己 描述 ,可 视 作 非 结 构 式 的 评定 方法 ;二 是 依 
据 事先 编 出 的 问卷 或 量 表 , 由 受 试 者 回答 ,可 视 作 结构 式 的 评定 方法 ,如 使 用 拉 扎 鲁 斯 
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(Lazarus) 和 弗 尔 科 曼 (Folkman) 等 人 于 1986 年 编制 的 “应 对 方式 检 核 表 ”, 来 考察 受 试 者 
的 应 对 方式 。 这 里 ,我们 将 要 介绍 的 是 肖 计划 于 1996 年 在 参考 国外 应 对 方式 的 问卷 以 及 
有 关 “ 应 对 方式 ”理论 的 基础 上 ,根据 我 国文 化 背景 编制 而 成 的 应 对 方式 问卷 。 

(二 ) 量 表 的 内 容 与 结构 

肖 计 划 编 制 的 应 对 方式 问卷 (Cope Style Questionnaire,CSQ) 共 包括 62 个 条 目 , 分 为 6 
个 分 量 表 (因子 ) ,分别 是 解决 问题 、 自 责 、 求 助 . 幻 想 、 退 避 , 合 理化 。 各 分 量 表 (因子 ) 的 条 目 
构成 如 表 9- 3 所 示 。 


表 9-3 应 对 方式 问卷 分 量 表 ( 因 子 ) 的 条 目 构成 


分 量 表 (因子 ) 分 量 表 (因子 ) 的 条 目 构 成 
解决 问题 1,2,3,5,8,—19,29,31,40,46,51,55 
自 责 15,23,25,37,39,48,50,56,57,59 
求助 10,11,14, 一 36, 一 39, 一 42,43,53,60,62 
幻想 4,12,17,21,22,26,28,41,45,49 
退 避 7,13,16,19,24,27,32,34,35,44,47 
合理 化 6,9,18,20,30,33,38,52,54,58,61 


E: 各 分 量 表 (因子 ) 条 目 没有 “一 "者 , 选 “是 "得 1 分 , 选 “ 否 ”得 0 分 ;各 分 量 表 (因子 ) 条 目 有 “一 者, 选 < 否 "得 1 
分 , 选 “ 是 "得 0 分 。 

(三 ) 量 表 的 实施 与 解释 

1. 施 测 步骤 

“应 对 方式 问卷 ?为 自 陈 式 个 体 应 对 行为 评定 量 表 。 调 查 者 将 该 问卷 发 给 受 检 者 后 ,要 
求 受 检 者 首先 阅读 指导 语 , 然 后 根据 自己 的 实际 情况 ,逐条 回答 问卷 每 个 项 目 提 及 的 问题 。 
待 受 检 者 答 完 后 ,当场 收回 。 

每 个 条 目 有 两 个 答案 :“ 是 "和 ”和 否 "”。 如 果 被 试 选择 “是 ”, 那 么 还 需要 继续 对 后 面 的 “有 
效 “ 比 较 有 效 ”" 和 “无 效 " 作 出 评估 ;如 果 选 择 “ 否 ”, 那 么 继续 下 一 个 条 目 。 

2. 评分 标准 

(1) 分 量 表 记 分 方法 。“ 应 对 方式 问卷 "有 6 个 分 量 表 ( 因 子 ) ,每 个 分 量 表 (因子 ) 由 若 
干 条 目 组 成 。 每 个 条 目 只 有 两 个 答案 :“ 是 "和 “ 否 ”, 计 分 分 为 两 种 情况 : “解决 问题 "分 量 
表 的 条 目 19,“ 求 助 ”分 量 表 的 条 目 36、39 和 42, 选 择 “ 否 ”得 1 分 ,选择 “是 ”得 0 4}; OO 
所 列举 的 情况 外 ,各 个 分 量 表 的 条 目 计 分 均 为 选择 “是 ”得 1 分 ,选择 “ 否 " 得 0 分 。 将 每 个 条 
目 得 分 相 加 , 即 为 该 分 量 表 的 原始 总 分 。 

(2) 计算 各 分 量 表 的 因子 分 。 因 子 分 的 计算 公式 如 下 : 

分 量 表 因子 分 = 分量 表 条 目 分 之 和 /分 量 表 条 目 数 

3. 结果 解释 

应 对 方式 问卷 分 量 表 (因子 ) 间 的 相关 分 析 发 现 ,“ 解 决 问题 "与 “ 退 避 ”两 个 应 对 因子 的 
负 相 关 程 度 最 高 ,以 此 作为 6 个 应 对 因子 关系 序列 的 两 极 ,然后 根据 各 因子 与 “解决 问题 "应 
对 因子 相关 系数 的 大 小 排序 ,可 将 6 个 应 对 因子 排出 下 列 关系 序列 ,如 下 所 示 : 

退 避 一 幻想 一 自 责 一 求助 一 合理 化 一 解决 问题 
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研究 结果 还 发 现 , 个 体 应 对 方式 的 使 用 一 般 都 在 一 种 以 上 ,有 些 人 甚至 在 同一 应 激 事件 上 
所 使 用 的 应 对 方式 也 是 多 种 多 样 的 。 但 每 个 人 的 应 对 行为 类 型 仍 具有 一 定 的 倾向 性 ,这 种 倾 
向 性 构成 了 6 种 应 对 方式 在 个 体 身 上 的 不 同形 式 的 组 合 。 对 于 这 些 不 同形 式 的 组 合 ,解释 
如 下 。 

(1)“ 解 决 问题 一 求助 ”, 成 熟 型 。 这 类 受 试 者 在 面 对 应 激 事件 或 环境 时 , 常 能 采取 “ 解 
决 问题 "和 “求助 "等 成 熟 的 应 对 方式 ,而 较 少 使 用 * 退 避 ”“ 幻 想 " 和 “ 自 责 ”等 不 成 熟 的 应 对 方 
式 , 在 生活 中 表现 出 一 种 成 熟 稳定 的 人 格 特征 和 行为 方式 。 

(2)“ 退 避 一 自 责 ”, 不 成 熟 型 。 这 类 受 试 者 在 生活 中 常 以 “ 退 避 ”幻想 "和 “ 自 责 ”等 应 
对 方式 应 对 困难 和 挫折 ,而 较 少 使 用 “解决 问题 "和 “求助 "这 类 积极 的 应 对 方式 ,表现 出 一 种 
神经 症 性 的 人 格 特点 ,其 情绪 和 行为 均 缺乏 稳定 性 。 

(3)“ 合 理化 ”, 混 合 型 。“ 合 理化 ”应 对 因子 既 与 “解决 问题 “求助 "等 成 熟 型 应 对 因子 
旦 正 相关 ,也 与 “ 退 避 ”幻想 ”等 不 成 熟 型 应 对 因子 呈正 相关 ,这 反映 出 这 类 受 试 者 的 应 对 行 
为 集成 熟 型 与 不 成 熟 型 的 应 对 方式 于 一 体 ,在 应 对 行为 上 表现 出 一 种 矛盾 的 心态 和 两 面 性 
的 人 格 特点 。 

4. 适用 范围 

(1) 文化 程度 在 初中 或 初中 以 上 。 

(2) 年 龄 在 14 岁 以 上 的 青少年 .成 年 人 和 老年 人 。 

(3) 除 痴呆 和 重 性 精神 病 之 外 的 各 类 心理 障碍 求助 者 。 

(4) 可 解释 个 体 或 群体 的 应 对 方式 类 型 和 应 对 行为 特点 ,比较 不 同 个 体 或 群体 的 应 对 
行为 差异 ,并 且 可 以 从 不 同类 型 的 应 对 方式 反映 人 的 心理 发 展 成 熟 程度 。 

(四 ) 量 表 的 评价 

量 表 编制 者 曾 在 青少年 学 生 和 神经 症 人 群 (对 照 组 ) 这 两 个 特定 群体 中 进行 信 度 和 效 度 
研究 。 信 度 研 究 采 用 重 测 法 ,青少年 学 生 组 各 分 量 表 的 重 测 信 度 为 0. 62 一 0. 72 ,神经 症 人 和 群 
(对 照 组 ) 各 分 量 表 的 重 测 信 度 为 0. 63 一 0.73。 效 度 评估 采用 因素 分 析 法 ,结果 显示 两 样本 
组 构成 的 各 因子 条 目的 因素 负荷 量 均 在 0. 35 以 上 。 信 效 度 分 析 表 明 .该 量 表 具 有 较 高 的 信 
度 和 效 度 。 

此 外 ,该 量 表 还 具有 以 下 应 用 价值 。 

(1) 可 作为 不 同 群 体 应 对 行为 研究 的 标准 化 工具 。 

(2) 由 于 良好 的 应 对 方式 有 助 于 缓解 精神 紧张 ,帮助 个 体 最 终 成 功 地 解决 问题 ,从 而 起 
到 心理 平衡 ,保护 心理 健康 的 作用 ,因此 评估 个 体 或 群体 的 应 对 行为 .有 助 于 为 心理 健康 保 
健 工作 提供 量化 依据 。 

(3) 用 于 不 同 群 体 应 对 行为 类 型 和 特点 研究 ,为 不 同 专业 领域 选拔 人 才 提 供 帮助 。 

(4) 用 于 不 同 群体 应 对 行为 类 型 和 特点 研究 .为 培养 人 才 提 供 帮 助 。 

(5) 用 于 各 种 心理 障碍 的 行为 研究 ,为 心理 治疗 和 康复 治疗 提供 指导 。 

(6) 用 于 各 种 有 心理 问题 的 人 的 行为 研究 ,为 提高 和 改善 人 的 应 对 水 平 提供 帮助 。 


心理 评定 量 表 是 心理 卫生 评估 中 收集 资料 的 重要 手段 之 一 。 在 心理 卫生 理论 研究 和 临 
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床 实践 中 ,常常 需要 对 个 体 或 群体 的 心理 和 社会 现象 进行 观察 ,并 对 观察 结果 以 数量 化 方式 
进行 评价 和 解释 ,这 一 过 程 称 为 评定 。 对 个 体 或 群体 的 心理 进行 评定 绝 非 漫 无 目的 ,需要 按 
照 标准 化 程序 来 进行 ,需要 借助 一 定 的 测量 工具 来 进行 ,如 心理 评定 量 表 。 

本 章 主要 学 习 了 三 类 心理 评定 量 表 : 一 是 心理 卫生 综合 评定 量 表 , 如 症状 自 评 量 表 
(CSCL- 90) .大 学 生 人 格 问 卷 (UPD 及 中 小 学 生 心 理 健 康 量 表 (MHT) ;二 是 情绪 及 相关 问 
题 评定 量 表 , 如 抑郁 自 评 量 表 (SDS) 、 焦 虑 自 评 量 表 (SAS) 和 自尊 量 表 (SES) ; 三 是 应 激 及 
相关 问题 评定 量 表 , 如 生活 事件 量 表 (LES) 、 社 会 支持 评定 量 表 (SSRS) 和 应 对 方式 问卷 
(CSQ) 。 

本 章 的 重点 和 难点 是 掌握 各 种 心理 评定 量 表 的 使 用 方法 。 本 章 的 中 心 概念 是 “评定 量 表 ”。 


一 、 选 择 题 ( 不 定 项 选择 题 ,至 少 有 一 个 选项 是 正确 的 ) 
1. 在 1 一 5 级 评分 的 SCL- 90 中 , 若 被 试 自觉 有 该 项 症状 ,并 对 其 有 一 定 的 影响 , 则 应 


评定 为 ( ) 

A. 2 分 B. 3 分 C. 44} D. 5 分 

2. SCL- 90 的 统计 指标 主要 为 两 项 , 即 总 分 和 ¢ 3 
A. 阳性 项 目 数 B. 阴性 项 目 数 
C. 阳性 症状 均 分 D. 因子 分 

3. SCL ~ 90 评定 的 时 间 范 围 是 “现在 ”或 者 是 最 近 ( ) 内 的 实际 感觉 。 ) 
A. 三 天 B. 一 周 C. 两 周 D. 一 个 月 

4. SCL 一 90 的 主要 特点 是 ( 
A. 共有 90 个 项 目 B. 包括 10 个 因子 


C. 用 于 测 查 就 诊 者 心理 卫生 问题 D. 使 用 成 人 与 儿童 
5. 根据 SCL - 90 全 国 常 模 , 若 按 0~4 的 5 级 评分 法 , 则 总 分 超过 ( ) 可 考虑 筛选 结 
果 为 阳性 。 ( ) 
A. 60 分 B. 70 分 C. 80 4¢ D. 160 分 
6. 某 求助 者 1 一 5 级 评分 的 SCL - 90 测验 结果 如 表 9 -4 所 示 。 
表 9-4 某 求助 者 1~5 级 评分 的 SCL - 90 测验 结果 
因子 名 称 ”躯体 化 ”强迫 症状 人 际 关系 敏感 ”抑郁 焦虑 ”敌对 RD 精神 病 性 
因子 分 4.2 1.0 3.2 2.2 2.4 1.5 1.0 3.5 1.2 


根据 表 9- 4 的 测试 结果 判断 ,该 求助 者 存在 的 心理 问题 是 ( ) 
A. 强迫 症状 B. 躯体 化 C. 焦虑 D. Zi 

7. 下 列 对 SCL - 90 的 描述 中 ,错误 的 是 € D 
A. 共有 90 个 项 目 
B. 包括 12 个 因子 
C. 可 以 测 查 人 际 关系 状况 
D. 适用 于 精神 科 或 心理 咨询 门诊 的 成 年 病人 
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8. 某 求 助 者 1 一 5 级 评分 的 SCL - 90 测验 结果 如 下 : 总 分 : 148; 阳 性 项 目 数 : 40; HKALE: 
1.3; 强 迫 症状 :1.4; 人 际 关系 敏感 :1.4; 抑 郁 :1. 8; 焦 虑 :2.9; 敌 对 :1.2; 恐 怖 :1.4; 偏 执 :1.9; 精 


神 病 性 :1.4。SCL 一 90 评分 结果 说 明 ,该 求助 者 在 ( 。”) 因 子 上 可 能 存在 异常 。 € 3 
A. 阳性 项 目 数 B. 焦虑 
C. 强迫 症状 D. 偏执 
9. 根据 SCL- 90 的 全 国 常 模 . 若 按 1 一 5 的 5 级 评分 法 , 则 属于 筛选 结果 为 阳性 的 划 界 
标准 是 ¢ 3 
A. 总 分 超过 160 分 B. 总 分 超过 180 分 
C. 阳性 项 目 数 超过 43 项 D. 任 一 因子 分 超过 2 分 


pa 


0. 在 1 一 5 级 评分 的 SCL- 90 中 ,所 谓 阳性 项 目 数 指 的 是 单项 分 ( ) 的 项 目 数 。 
( ) 


A. =1 B. >1 Gs 2 D. 23 

11. 属于 SCL - 90 的 因子 有 焦虑 、 抑 郁 、 敌 对 、( ) 等 。 ( ) 
A. 社会 内 向 B. 强迫 症状 
C， 人 际 关系 敏感 D. 轻 躁 狂 

12; £ ) 因 子 不 包括 在 SCL — 90 所 测 查 的 因子 中 。 ( ) 
A. 人 际 关系 敏感 B. 精神 病 性 
C. 睡眠 及 饮食 D. 内 外 向 

13. SCL - 90 并 不 适合 ( ) 
A. 在 精神 科 或 心理 咨询 门诊 中 ,作为 了 解 就 诊 者 或 求助 者 心理 卫生 问题 的 一 种 评 

定 工 具 


B. 诊断 心理 疾病 
C. 了 解 身体 疾病 求助 者 的 精神 症状 
D. 调查 不 同 职业 群体 的 心理 卫生 问题 


14. SDS 是 ( ) 的 英文 缩写 。 ( ) 
A. 症状 自 评 量 表 B. 抑郁 自 评 量 表 
C. 焦虑 自 评 量 表 D. 心理 评定 量 表 

15. SAS 可 用 于 测 查 被 试 的 ( ) 症 状 。 ( ) 
A. i B. RE c. 抑郁 D. 敌对 

16. 若 SDS 的 正 向 评分 题 评 为 3 分 , 则 其 症状 出 现 频 度 是 ( ) 有 症状 。 ) 
A. 绝 大 部 分 或 全 部 时 间 B. 少 部 分 时 间 
C. 相当 多 时 间 D. 没有 或 很 少时 间 

17. SAS 共 包 括 20 个 项 目 .各 项 目 均 按 其 症状 出 现 的 频 度 分 为 ( ) 评 分 。 《 ) 
A. 3 级 B. 4 级 C. 5 级 D. 7 级 

18. “SAS: 60 分 ;SDS: 86 分 ”, 说 明 求 助 者 ( ) 
A. 正常 状态 B. 没有 焦虑 ,只 有 抑郁 
C. 只 有 焦虑 ,没有 抑郁 D. 既 有 抑郁 :也 有 焦虑 

19. 如 果 求 助 者 的 SDS 测验 总 粗 分 为 66 分 ,那么 标准 分 为 ¢ 32 
A. 79 4} B. 82 分 C. 83 分 D. 85 分 
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20. SDS 量 表 评定 的 时 间 范 围 是 ( ) 
A. 最 近 三 天 B. 最 近 一 周 
C. 最 近 两 周 D. 最 近 一 外 月 

21. ¢ ) 测 试 可 用 来 评估 该 求助 者 的 情绪 状况 。 @ 5 
A. SDS B. SAS 
C. 16PF D. WAIS-RC 

22. 若 SDS 总 粗 分 为 52 分 , 则 该 求助 者 SDS 得 分 表明 其 ( ) 
A. 出 现 轻 度 抑郁 B. 出 现 中 度 抑郁 
C. 出 现 重度 抑郁 D. 未 出 现 抑郁 

23. 按照 中 国 常 模 结 果 ,SDS 的 标准 分 在 ( ) 为 轻 度 抑郁 。 ¢ 2 
A, 53~62 分 B. 63~72 分 
C. 73 一 82 分 D. 82 分 以 上 

24, 关于 SDS 的 描述 ,不 正确 的 是 ¢ J 


A. 用 于 评估 焦虑 病人 的 主观 感受 

B. 用 于 具有 抑郁 症状 的 成 年 人 

C. 对 心理 咨询 门诊 及 精神 科 门 诊 或 住院 精神 病人 均 可 使 用 
D. 对 严重 阻 沾 症 状 的 抑郁 病人 ,评定 有 困难 


25. LES 记分 时 ,对 于 长 期 性 事件 发 生 次 数 的 记分 不 到 半年 应 记 为 ( ) 
A. 4 次 了 3 次 C. 2 次 D. 1 次 

26, LES 影响 程度 分 为 ( ) 
A. 3 级 B. 4 级 C. 5 级 D. 6 级 

27. LES 通常 调查 被 试 的 时 间 是 ( ) 
A ZAA B. 半年 内 
C. 一 年 内 D. 一 年 以 上 

28. 社会 支持 评定 量 表 ( 肖 水 源 编 ) 共 有 ( ) 题 目 , 分 ( ) 维 度 。 ( ) 
A. 12,3 B. 10.3 
C.. 2005 D. 10.4 

29. 应 对 方式 问卷 ( 肖 计 划 编 ) 共 有 62 条 项 目 , 分 ( AER ¢ 3J 
A. 3 个 Bi 4% Gef Dot 


30. 通过 对 每 人 进行 15 分 钟 左 右 的 面谈 ,UPI 区 分 出 A、B.C 三 类 ,是 针对 筛选 出 的 
& þł 


A. 第 一 类 学 生 B. 第 二 类 学 生 
C. 第 三 类 学 生 D. 第 四 类 学 生 
31. 自尊 量 表 的 编制 者 是 谁 ? 
A. Rosenberg B. Zung 
C. Selye D. Derogatis 
32. MHT 共 包 含 ( 。“) 个 内 容量 表 。 $ 9) 


A. 10 Be Cc. 8 Ds 7 
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二 、 案 例题 
1. 某 求 助 者 的 SCL - 90 测验 结果 如 下 所 示 。 其 中 , 表 9 一 5 是 SCL 一 90 的 各 因子 分 。 
总 分 : 200 阳性 项 目 数 : 61 


表 9-5 某 求助 者 的 SCL - 90 的 各 因子 分 


因子 名 称 躯体 化 强迫 症状 人 际 关系 敏感 ”抑郁 焦虑 Rt et 精神病 性 其 他 


因子 分 1.8 2.1 2.3 1.8 1.8 2.2 1.4 3.5 4.2 1.6 
(1) 根据 SCL - 90 测验 结果 ,可 以 计算 出 该 求助 者 的 阳性 症状 均 分 约 为 ( ) 
A, 2.2 B. 2.3 CG. 2.8 t 3:3 
(2) 根据 表 9 一 5 的 测验 结果 判断 ,该 求助 者 存在 的 心理 问题 是 ) 
A. 强迫 症状 B. 人 际 关系 敏感 
C. 敌对 D. 偏执 


2. 某 求 助 者 的 SCL- 90 测验 结果 如 表 9- 6 所 示 , 试 回答 以 下 问题 。 
表 9-6 某 求助 者 的 SCL -90 测验 结果 


因子 名 称 躯体 化 强迫 症状 人 际 关系 敏感 抑郁 “焦虑 敌对 Bhi 偏执 精神 病 性 其 他 总 计 


因子 总 分 26 44 22 34 18 15 11 10 18 11 209 
项 目 数 12 10 9 13 10 6 7 6 10 tf 
因子 分 2.2 4.4 2.4 26 RE 26 Le 187 1.8 1.6 
>2 6 7 4 7 4 3 3 4 4 2 44 
(1) AK 9-6 的 统计 结果 看 ,该 求助 者 ( ) 
A. 可 确诊 为 强迫 症 B. 有 明显 的 偏执 倾向 
C. 无 特殊 问题 D. 可 考虑 筛选 结果 为 阳性 , 需 作 进一步 检查 
(2) 从 表 9-6 的 统计 结果 来 看 ,该 求助 者 的 阴性 项 目 数 为 ( ) 
A. 46 B. 56 C. 66 D. 76 
(3) AR 9-6 的 统计 结果 可 以 计算 出 ,该 求助 者 的 测验 总 均 分 约 为 ( ) 
A. 1.8 B, 2.3 C., 227 D 3.0 
(4) 从 表 9-6 ASA ATIKE BEA OR A ( ) 
A. 存在 主观 的 颈 体 不 适 感 B. 有 心血 管 疾病 
C. 有 呼吸 系统 疾病 D. 身体 某 器 官 有 器 质 性 病变 
三 、 简 答题 


1. 简 述 大 学 生 人 格 问卷 (UPD) 的 内 容 与 结构 及 其 实施 与 解释 。 
2. 简 述 社会 支持 评定 量 表 (SSRS) 的 施 测 方法 及 其 应 用 价值 。 


BrE ”项 目 反 应 理论 


心理 测验 理论 (psychological test theory) 是 一 种 解释 测验 分 数 实证 关系 的 理论 。 迄 今 
为 止 ,通常 人 们 把 心理 测验 理论 划分 成 三 大 理论 分 支 : 一 是 经 典 测验 理论 (Classical Test 
Theory, CTT) ,主要 是 从 真 分 数 模型 (true score model) 出 发 ,建立 的 一 套 完整 的 测验 理论 ; 
二 是 现代 测验 理论 ,主要 是 以 项 目 反 应 理论 (Item Response Theory. IRT) 和 概 化 理论 
(Generalizability Theory, GT) 为 代表 ;三 是 新 一 代 测 验 理 论 ,主要 是 以 认 知 诊断 理论 
(Cognitive Diagnostic Theory,CDT) 为 代表 。CTT 经 过 一 百 多 年 的 发 展 ,逐步 形成 了 较为 
完整 的 体系 ,在 心理 测量 的 理论 与 实践 中 的 贡献 是 巨大 的 ,并 将 在 实践 中 继续 发 挥 其 作用 。 
但 是 ,CTT 有 其 局 限 性 。 从 20 世纪 50 年 代 开 始 ,项 目 反 应 理论 ,又 译 为 题目 作答 理论 ,在 
克服 CTT 缺点 的 基础 上 发 展 起 来 ,并 在 实践 中 逐渐 显示 出 许多 优越 性 。 在 本 章 中 ,题目 
(item) ,又 称 为 项 目 或 试题 。 
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经 典 测验 理论 存在 严格 的 平行 假设 在 现实 中 无 法 满足 ,以 及 对 被 试 能 力 参 数 估计 的 精 
度 指标 不 恰当 等 局 限 性 。 从 它 诞生 之 日 开始 ,人 们 就 在 寻找 克服 这 些 缺 点 的 办 法 。 其 中 一 
个 研究 方向 是 : 从 测量 的 外 部 或 宏观 方面 人手 ,继续 沿 着 随机 抽样 理论 和 线性 模型 的 思路 
向 前 发 展 ,着 重 讨论 实测 时 的 测量 条 件 与 结论 推广 的 应 用 范围 之 间 的 关系 , 即 重 在 讨论 测量 
的 外 部 效 度 问题 ,人 们 沿 着 这 条 思路 创立 和 发 展 了 测量 的 概 化 理论 。 与 此 同时 , 另 一 个 研究 
方向 是 : 从 测量 的 内 部 或 微观 方面 人手 ,放弃 随机 抽样 理论 的 思路 ,采取 数学 建 模 和 统计 调 
整 的 方法 ,重点 讨论 被 试 能 力 与 测验 题目 之 间 的 实质 性 关系 ,这 种 关系 并 非 像 经 典 测验 理论 
和 概 化 理论 那样 具有 线性 关系 ,往往 更 多 的 是 一 种 非 线性 关系 , 即 重 在 讨论 测量 的 内 部 效 度 
问题 ,进而 创立 和 发 展 了 测量 的 项 目 反 应 理论 。 项 目 反 应 理论 不 属于 随机 抽样 理论 ,而 属于 
量 表 化 模型 理论 。 进 一 步 , 项 目 反应 理论 与 认 知 心理 学 相 结合 ,体现 心理 测验 理论 与 认 知心 
理学 的 实质 性 融合 ,发 展 出 认 知 诊断 理论 。 

在 社会 科学 里 ,我 们 经 常 使 用 测验 (含量 表 、 问 卷 、 系 统 性 的 观察 、 晤 谈 等 ) ,来 测量 一 些 
假设 性 的 构 念 (construct) 或 属性 (attribute) ,如 能 力 、 人 格 、 态 度 、 兴 趣 等 。 我 们 会 用 成 就 测 
验 测量 学 科 能 力 ,会 用 焦虑 量 表 测量 焦虑 程度 ,会 用 生活 质量 量 表 测 量 幸 福 感 等。 这 些 构 念 
或 属性 无 法 直接 观察 ,而 是 通过 某 些 可 观察 的 事件 ,来 推论 其 拥有 度 的 多 少 , 因 此 称 为 潜在 
特质 (latent trait). 

一 般 地 ,测量 有 两 大 目的 : 一 是 要 反映 出 个 体 间 的 差异 (inter-individual difference) 。 
例如 , 谁 的 能 力 较 高 ? 谁 较为 外 向 ? 谁 较为 满意 ? 二 是 反映 出 个 体内 的 差异 Gintra- 
individual difference)。 例 如 , 张 三 现 在 的 数学 能 力 是 否 比 上 年 好 , 李 四 现 在 的 满意 度 是 否 比 
上 个 月 高 。 若 测验 只 有 一 道 题目 , 则 信 度 和 效 度 可 能 过 低 , 没 有 实用 价值 。 因 此 ,通常 会 编 
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制 多 道 题目 ,以 期 能 够 提高 测量 的 信 度 和 效 度 。 昌 然 这 些 题目 意欲 测量 同一 构 念 或 属性 ,但 
是 是 否 真 的 达到 这 样 的 效果 ,需要 用 实证 数据 进行 验证 ,这 是 项 目 分 析 的 任务 之 一 。 

经 过 项 目 分 析 ,确认 测验 内 的 所 有 题目 都 在 测量 同一 构 念 或 属性 后 ,也 就 是 吻合 单 维 人 性 
Cunidimensionality) 的 假设 ,最 常用 的 方法 就 是 用 每 个 题目 得 分 相 加 后 的 原始 总 分 (或 其 线 
性 转换 ,如 工分 数 ) 来 代表 受 试 者 在 该 潜在 特质 上 的 程度 。 例 如 ,在 能 力 测验 上 ,答对 每 题 得 
1 分 (或 更 多 分 ) , 答 错 得 0 分 ,测验 的 总 分 就 是 每 题 得 分 的 加 总 ,总 分 越 高 ,表示 该 能 力 越 强 。 
而 在 评定 量 表 上 ,常用 李 克 特 量 表 (1likert scale) 或 评定 量 表 (rating scale) 进 行 测 量 , 如 非常 
不 同意 (1 分 )、 有 点 不 同意 (2 分 ) 有 点 同意 (3 分 ) ,非常 同意 (4 分 ), 然 后 将 所 有 题目 得 分 加 
总 ,来 表示 受 试 者 在 该 潜在 特质 (如 焦虑 、 幸 福 感 ;上 的 程度 ,总 分 越 高 ,表示 该 潜在 特质 越 
强 。 如 果 测 验 内 的 题目 不 是 测量 同一 个 潜在 特质 ,那么 题目 的 分 数 就 不 能 加 总 ,此 时 测验 的 
总 分 并 没有 任何 意义 。 

为 方便 起 见 , 本 章 以 能 力 测验 为 例 ,采用 “能 力 ” 这 个 名 词 取代 “潜在 特质 ”, 用 题目 的 “ 难 
度 ” 取 代 题 目的 “ 阅 值 ”。 由 此 ,读者 也 可 以 将 本 章 的 主要 概念 和 做 法 ,类 化 到 非 能 力 测验 中 。 

测验 分 数 里 显然 含有 相当 程度 的 测量 误差 (measurement error)。CTT 假设 : 观察 分 数 
(observed score) 是 真 分 数 (true score) 和 随机 误差 分 数 (error score) 的 总 和 。 除 此 之 外 ， 
CTT 也 对 测量 误差 作 了 一 些 假设 。 在 CTT 中 ,如 果 假 设 观察 分 数 是 等 距 量 纲 (interval 
scale) ,那么 这 个 等 距 量 纲 的 假设 应 用 到 物理 测量 (如 身高 体温 ?是 可 以 成 立 的 。 但 是 ,应 用 
到 社会 科学 里 的 潜在 特质 测量 , 改 怕 大 有 问题 。 实 际 上 ,人 们 经 常 利用 原始 总 分 (或 其 线性 
转换 分 数 ) 来 比较 个 别 差 异 ( 如 李 四 的 分 数 比 张 三 高 10 分 )\ 团 体 差 异 ( 如 女生 的 平均 数 比 男 
生 高 10 分 ) ,或 评估 改变 (如 张 三 比 过 去 进步 10 分 ) ,以 及 估算 潜在 变量 间 的 相关 (如 数学 能 
力 与 语文 能 力 的 相关 是 0. 5) 。 但 是 ,如 果 原 始 总 分 不 是 等 距 量 纲 , 那 么 就 不 能 进行 四 则 运 
算 , 如 不 能 计算 其 平均 数 和 标准 差 等 ,上 述 这 些 分 析 也 就 不 恰当 。 

有 人 认为 将 测验 的 原始 总 分 输入 计算 机 中 ,然后 进行 一 般 的 假设 检验 或 区 间 估 计 , 如 利 
用 SPSS 进行 方差 分 析 、 回 归 分 析 等 ,就 是 在 使 用 经 典 测验 理论 。 事 实 不 然 ,因为 在 上 述 的 
分 析 里 ,所 有 的 数字 除了 被 当成 等 距 量 纲 的 数据 外 ,还 被 当成 真 分 数 ,没有 测量 误差 ,所 以 并 
不 是 在 使 用 经 典 测验 理论 。 如 果 当 初 的 这 些 数字 的 误差 很 小 (如 身高 .体重 ) ,那么 其 被 当成 
真 分 数 所 造成 的 错误 是 可 以 忽略 的 。 但 是 ,在 一 般 的 社会 科学 里 ,几乎 所 有 的 测量 数字 , 误 
差 都 相对 较 大 。 此 时 ,即便 分 数 已 经 是 等 距 量 纲 的 数据 ,忽略 测量 误差 而 进行 假设 检验 或 区 
间 估 计 , 也 会 有 较 大 的 错误 。 


一 、 测 验 的 原始 总 分 的 劣 性 


现 有 一 数学 测验 ,有 50 道 题目 ,每 题 1 分 ,满分 是 50 分 。 有 三 位 考生 张 三 、 李 四 和 王 
五 ,他 们 的 考试 得 分 分 别 是 30 分 、40 分 和 50 分 。 在 满分 50 分 的 测验 里 , 张 三 考 30 分 ,我 们 
认为 其 数学 能 力 不 是 很 好 。 但 若 换 了 一 个 较为 容易 的 测验 , 张 三 可 能 考 近 满分 , 则 会 认为 张 
三 的 数学 能 力 很 棒 。 若 换 了 一 个 很 难 的 测验 , 张 三 可 能 接近 0 分 , 则 会 认为 其 数学 能 力 很 
差 。 如 此 一 来 ,到 底 张 三 的 数学 能 力 是 棒 是 差 ,无 法 判定 ,必须 视 当 初 所 采用 测验 的 难 易 度 
而 定 。 换 名 话说 ,在 判断 考生 能 力 高 低 时 ,出现 了 所 谓 的 测验 依赖 (test dependent) 的 现象 。 

除了 考生 能 力 之 外 .人 们 还 想 知道 每 一 题 的 难度 是 多 少 。 假 设 这 份 数学 考卷 , 共 100 位 学 
生 作答 。 如 果 第 1 题 有 90 人 答对 ,答对 率 为 0. 90 ,那么 我 们 会 认为 该 题目 很 容易 。 但 若 考生 
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换 成 男 一 批 人 ,其 数学 能 力 普遍 偏 低 ,第 1 题 的 答对 率 只 有 0. 10, 则 此 时 我 们 会 认为 该 题目 很 
困难 。 那 么 ,到 底 该 题目 是 易 是 难 ,就 无 法 判定 ,必须 视 当 初 是 哪 种 程度 的 考生 来 作答 而 定 。 
换 句 话说 ,在 判断 题目 难 易 度 时 ,出 现 了 所 谓 的 样本 依赖 (sample dependent) 的 现象 。 

如 果 对 考生 能 力 的 判断 ,受到 所 使 用 测验 难 易 度 的 干扰 (测验 依赖 ) ,或 者 对 于 题目 难 易 
的 判断 ,受到 所 抽取 考生 程度 的 干扰 (样本 依赖 ) ,这 就 没有 达到 测量 考生 能 力 , 以 及 校准 
(calibrate) 题 目 难度 的 任务 。 简 单 地 说 ,利用 测验 的 原始 总 分 和 题目 的 答对 率 , 分 别 来 表示 
考生 的 能 力 和 题目 的 难度 ,并 不 恰当 。 
测验 的 原始 总 分 的 差距 也 常 被 用 来 表示 两 个 考生 能 力 的 差距 。 沿 用 上 例 , 李 四 的 数学 分 
数 比 张 三 高 10 分 ,这 两 人 之 间 数 学 能 力 的 差距 是 大 还 是 小 ? 在 满分 为 50 分 的 测验 里 ,两 者 差 
BE 10 分 ,我 们 可 能 认为 两 人 之 间 的 能 力 差距 是 不 大 不 小 。 如 果 当 初 的 命题 者 在 他 们 两 人 的 数 
学 能 力 之 间 出 很 多 的 考题 ,使 得 这 些 考题 基本 上 都 是 李 四 可 以 答对 , 张 三 很 难 答对 ,那么 这 样 
一 来 ,两 人 之 间 的 分 数 差 距 可 以 达 50 分 之 多 ( 李 四 考 满分 , 张 三 考 0 分 )。 此 时 ,我 们 会 认为 两 
人 之 间 的 能 力 差距 是 天 壤 之 别 。 但 若 当初 的 命题 者 都 是 出 一 些 非 常 简单 (或 非常 困难 ) 的 题 
目 , 使 得 张 三 和 李 四 几 乎 答对 (或 答 错 ) 所 有 题目 ,因而 两 人 的 分 数 差距 几 近 于 0, 那 么 此 时 我 们 
会 认为 两 人 之 间 的 数学 能 力 差距 是 微乎其微 。 换 名 话说, 张 三 和 李 四 数 学 能 力 的 差距 是 大 是 
小 ,取决 于 所 使 用 的 测验 ,也 就 是 测验 依赖 。 这 表明 ,利用 测验 的 原始 总 分 的 差距 来 表达 能 力 
差距 是 不 恰当 的 。 

张 三 和 李 四 能 力 差 距 的 例子 ,还 可 以 延伸 至 团体 的 差异 ,如 男 、 女 生 在 数学 能 力 的 差异 
(男生 数学 的 平均 得 分 是 30 分 ,女生 平均 得 分 是 40 分 ) ,或 者 实验 组 和 控制 组 的 差异 (接受 
传统 教学 的 控制 组 的 学 生平 均 得 分 是 30 分 ,接受 新 式 教学 的 实验 组 的 学 生平 均 得 分 是 40 
分 )。 这 意味 着 ,团体 间 的 差距 是 大 是 小 (如 性 别 差异 、 实 验 效果 等 ) ,可 以 由 命题 者 来 决定 ! 

测验 依赖 也 可 以 延伸 至 成 长 的 测量 。 例 如 ,在 某 实 验 处 理 ( 如 小 班 教学 ) 之 前 , 张 三 的 前 
测 原始 分 数 是 30 分 ,经 过 实验 处 理 后 ,其 后 测 原始 分 数 是 31 分 .成 长 了 1 分。 在 满分 50 分 
的 测验 里 ,只 成 长 1 分 , 轴 怕 令 很 多 人 感到 肖 表 。 但 是 ,假如 找 一 位 聪明 的 命题 者 ,可 以 命 出 
很 多 的 题目 ,使 得 张 三 在 前 测 时 ,能 力 不 足 ,因此 无 法 答对 ,而 在 接受 实验 处 理 后 ,能 力 长 进 ， 
几乎 都 能 全 部 答对 ,那么 其 成 长 的 分 数 可 以 高 达 50 分 。 换 句 话 说 ,前 后 测 测验 的 原始 总 分 
的 差距 ,并 不 能 反映 出 考生 能 力 的 成 长 。 

另 一 个 有 趣 的 问题 是 : 王 五 比 李 四 多 10 分 , 李 四 比 张 三 多 10 分 ,这 是 否 意味 着 王 五 和 
李 四 之 间 数 学 能 力 的 差距 , 恰 等 于 李 四 和 张 三 之 间 数 学 能 力 的 差距 ? 也 就 是 测验 的 原始 总 
分 是 否 等 距 ? 答案 显然 是 否定 的 。 这 是 因为 ,如 上 说 明 , 李 四 和 张 三 的 差距 是 大 是 小 ,取决 
于 测验 。 使 用 不 同 的 测验 ,可 能 造成 他 们 两 人 的 分 数 差 距 可 以 高 达 50 分 ,也 可 以 低 至 0 分 。 
同 理 , 王 五 和 李 四 的 分 数 差距 ,也 可 能 受到 测验 的 干扰 ,可 以 高 达 50 分 ,也 可 以 低 至 0 分 。 
这 说 明 ,测验 的 原始 总 分 并 没有 等 距 的 意义 。 

同样 的 情形 ,还 有 可 能 会 发 生 在 对 反应 时 间 的 理解 上 。 假 设 在 某 认 知 能 力 的 实验 里 , 记 
录 了 每 位 受 试 者 成 功 做 完 作 业 所 需 的 反应 时 间 。 张 三 费时 30 秒 , 李 四 费时 40 秒 , 王 五 费时 
50 秒 。 毋 庸 置疑 ， 秒 ?可 以 相 加 减 , 是 个 等 距 量 纲 。 但 是 否 可 以 宣称 * 王 五 和 李 四 之 间 认 知 
能 力 的 差距 , 恰 等 于 李 四 和 张 三 之 间 认 知 能 力 的 差距 ?答案 是 否定 的 ,因为 换 另 一 个 实验 作 
业 大 概 不 会 得 到 一 样 的 关系 。 

总 而 言 之 ,利用 测验 的 原始 总 分 来 表示 受 试 者 的 能 力 , 或 利用 题目 的 答对 率 来 表示 题目 
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的 难度 ,会 造成 彼此 干扰 ,无 法 独立 ,因此 毫 无 “客观 ”可 言 , 也 就 得 不 到 等 距 量 纲 的 数据 。 当 
以 上 这 些 问题 无 法 有 效 解决 时 ,所 得 到 的 测验 的 原始 总 分 在 测量 上 表现 出 劣 性 ,并 不 能 真正 
体现 出 多 大 的 价值 , 且 后 续 的 四 则 运算 都 可 能 是 有 问题 的 。 


二 、 从 测验 的 原始 总 分 到 测验 的 项 目 反应 


一 般 的 测验 分 析 者 ,通常 将 测验 的 原始 总 分 视 为 等 距 量 纲 的 数据 ,然后 利用 常见 的 统计 
方法 进行 分 析 , 如 利用 方差 分 析 、 相 关 分 析 、 回 归 分 析 、 因 素 分 析 、 结 构 方程 模型 等 进行 统计 
分 析 。 这 样 做 的 理由 有 二 : 一 是 认为 测验 的 原始 总 分 是 等 距 量 纲 的 数据 ;二 是 虽然 知道 测 
验 的 原始 总 分 可 能 不 是 等 距 量 纲 的 数据 ,但 是 若 无 适 当 易 用 的 分 析 方法 , 则 通常 沿用 前 人 的 
做 法 ,就 当成 等 距 量 纲 的 数据 来 分 析 。 这 不 仅 是 社会 科学 界 的 普遍 现象 ,就 连 医学 界 也 不 能 
幸免 ,因为 医学 界 也 常 利 用 测验 来 了 解 病人 的 一 些 能 力 ( 如 肢体 运动 能 力 ) .睡眠 品质 痛觉 、 
主观 幸福 感 等 。 

自 20 世纪 60 年 代 起 ,研究 者 开始 认识 到 测验 数据 的 分 析 单 位 ,应 该 是 测验 的 项 目 反 应 
Citem response)( 又 译 为 题目 作答 ) ,而 不 是 测验 的 原始 总 分 ,因为 测验 的 原始 总 分 常常 表现 
出 劣 性 。 当 我 们 搜集 受 试 者 在 测验 上 的 数据 时 ,更 合适 的 做 法 是 ,得 到 他 在 每 个 项 目的 反应 
资料 ,而 不 是 仅仅 得 到 一 个 总 的 测验 分 数 。 仍 以 数学 测验 为 例 , 我 们 可 以 得 到 受 试 者 在 测验 
每 个 项 目 上 的 得 分 (如 0 分 或 1 分 ) ,这 些 项 目的 得 分 就 是 该 受 试 者 在 项 目 上 的 反应 (项 目 反 
应 ) 。 我 们 可 以 根据 该 受 试 者 在 测验 项 目 上 的 反应 来 综合 分 析 其 能 力 , 而 不 是 简单 地 使 用 一 
个 测验 的 原始 总 分 来 表示 该 受 试 者 的 数学 成 绩 ,进而 表示 他 的 能 力 。 这 样 做 的 好 处 在 于 , 考 
察 测验 的 项 目 反 应 比 考察 测验 的 原始 总 分 更 有 效 ,也 更 真实 。 

项 目 反应 是 类 别 数据 (categorical data) ,是 非 连续 数据 ,而 不 是 等 距 或 等 比 量 纲 的 连续 
数据 。 项 目 反应 顶 多 只 能 算是 顺序 量 纲 的 数据 ,如 得 分 越 高 ,表示 该 能 力 越 强 。 有 了 这 个 共 
识 后 ,研究 者 们 提出 了 一 系列 的 数学 模型 来 处 理 项 目 反应 数据 ,这 些 数学 模型 建构 出 不 同 的 
项 目 反 应 理论 模型 。 照 此 看 来 ,测验 数据 的 分 析 单 位 ,由 原先 经 典 测验 理论 中 的 测验 的 原始 
总 分 变 为 项 目 反应 理论 中 的 测验 的 项 目 反 应 。 


三 、 项 目 反 应 理论 的 优越 性 与 局 限 性 


项 目 反 应 理论 以 潜在 特质 理论 为 架构 ,具有 以 下 几 个 优点 (这 些 优点 正 是 经 典 测验 理论 
所 无 法 具备 的 )。 T 
(1) 项 目 反 应 理论 所 采用 的 项 目 参 数 
不 依赖 样本 。 在 IRT 中 ,项 目 参 数 的 获得 Ds 
不 会 因为 所 选 出 接受 测验 的 被 试 样本 的 不 
同 而 不 同 。 项 目 特征 曲线 是 被 试 正确 作答 
概率 对 其 潜在 能 力 特 质 水 平 的 回归 .如 
图 10 -1 所 示 。 0.2 
图 10-1 的 回归 曲线 并 不 依赖 于 回归 
变量 本 身 的 次 数 分 布 。 在 求 取 项 目 特征 曲 “M0 -30 -20 -10 00 10 20 30 40 
线 的 各 种 参数 时 ,因为 回归 曲线 的 形状 、 位 被 试 游 在 能 力 特质 
置 都 不 依赖 于 被 试 的 分 布 ,所 以 它 的 参数 ， 图 10-1 项 目 特征 曲线 
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包括 难度 参数 .区 分 度 参数 和 猜测 度 参数 等 ,也 都 是 不 变 的 。 

(2) 项 目 反 应 理论 可 以 通过 构造 不 同 试题 组 成 的 测验 ,估计 出 被 试 个 人 的 能 力 ,不 受 测 
验 的 影响 ,并 且 对 于 不 同 被 试 间 的 分 数 , 可 以 进行 有 意义 的 比较 。 

G) 项 目 反应 理论 提出 以 项 目 信 息 量 (item information) 及 测验 信息 量 (test information) AY 
概念 ,来 评定 某 道 试题 或 整 份 试卷 的 测量 准确 性 ,以 取代 经 典 测验 理论 的 信 度 和 效 度 ,这 样 
可 以 精确 估计 测量 的 误差 。 

(4) 项 目 反应 理论 的 项 目 难度 参数 和 被 试 能 力 参数 是 定义 在 同一 个 量 纲 上 的 ,可 以 对 
一 个 能 力 参 数 已 知 的 被 试 ,配给 一 个 项 目 参 数 已 知 的 试题 ,通过 项 目 特征 函数 预测 被 试 正确 
作答 概率 。 若 估 出 被 试 的 能 力 , 则 可 以 在 题库 中 选 出 难度 与 其 能 力 相 当 的 项 目 进行 新 一 轮 
的 测试 ,使 得 能 力 估计 更 为 精确 ,这 一 特点 为 自 适应 测验 竟 定 了 基础 。 

(5) 项 目 反 应 理论 能 够 针对 每 位 被 试 ,提供 个 别 差异 的 测量 误差 指标 ,而 非 单一 相同 的 
测量 标准 误 , 因 此 能 够 精确 估计 每 位 被 试 的 能 力 值 。 

利用 上 述 IRT 这 些 优良 性 质 , 可 以 开发 优质 题库 ,可 以 按 测 量 精度 目标 编制 各 种 测验 ， 
可 以 实施 测验 等 值 ,可 以 侦查 项 目 功能 差异 ,可 以 实现 计算 机 化 自 适 应 测验 (Computerized 
Adaptive Testing,CAT) ,等 等 ,应 用 十 分 广泛 。 

然而 ,就 目前 而 言 , 项 目 反 应 理论 在 实际 情境 中 的 应 用 仍 存在 一 些 问题 ,其 主要 原因 是 
项 目 反应 理论 也 存在 一 定 的 局 限 性 ,主要 表现 在 以 下 几 个 方面 。 

(1) 项 目 反 应 理论 假定 所 测 的 特质 是 单 维 的 ,这 只 是 一 种 理想 状态 ,许多 能 力 测验 、 学 
业 测 验 等 都 只 是 基本 符合 这 一 假设 ,还 有 一 些 测 验 难 以 完全 满足 单 维 性 假设 。 

(2) 项 目 反应 理论 体系 建立 在 理论 假设 严谨 的 数理 统计 之 上 ,相对 较为 复杂 ,掌握 该 理 
论 及 其 技术 需要 有 较 好 的 数学 与 计算 机 方面 的 基础 。 

(3) 项 目 反应 理论 的 参数 估计 不 依赖 于 特定 的 样本 ,但 要 使 参数 的 估计 具有 稳定 性 , 实 
测 估 计时 还 是 需要 大 样本 ,以 获得 稳定 的 参数 估计 值 。 

上 述 问题 都 制约 了 项 目 反 应 理论 在 实践 中 应 用 的 广泛 程度 。 然 而 ,IRT 却 代表 了 现代 
测验 理论 的 发 展 方向 。 随 着 多 维 IRT 的 稳步 发 展 . 计 算 机 及 其 技术 的 广泛 普及 、 统 计 测量 
理论 与 方法 的 逐渐 成 熟 , 以 及 实际 测量 发 展 的 迫切 需求 ,IRT 理论 将 逐步 扩大 其 在 心理 测量 
中 的 应 用 范围 。 
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一 、 定义 IRT 数学 模型 


项 目 特征 函数 ,是 项 目 反应 理论 的 数学 模型 。 项 目 反 应 理论 的 第 一 个 数学 模型 是 由 洛 
德 (E. M. Lord) F 1952 年 提出 的 双 参 数 正 态 肩 形 曲线 模型 (two-parameter normal ogive 
model) ,其 项 目 特征 曲线 (Item Characteristic Curve. ICC) 如 图 10 一 2 所 示 , 其 项 目 特征 函数 
(Item Characteristic Function,ICF) 如 下 式 所 示 。 


ofa 5 
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图 10-2 双 参 数 正 态 肩 形 曲线 


示 能 力 水 平 为 9; 的 被 试 7 在 试题 上 正确 作答 的 概率 。 从 理论 上 讲 ,b 的 取 值 在 一 2 到 十 
co 之 间 。 当 由 三 一 co 时 P: (0) H 0.4 A= +O POW 1, bi 表示 试题 i 的 难度 参数 
(difficulty parameter), 它 与 特质 9 定义 在 同一 个 量 纲 scale) K. MO =) RA 
公式 (10-1) ,得 Pi(6;) 二 0.5, 可 见 b; 点 是 肩 形 曲线 的 对 称 中 心 , 也 就 是 曲线 的 拐点 。w; 表 
示 试 题 i 的 区 分 度 参数 (discrimination parameter) ,从 图 10 - 2 中 可 以 看 出 ,a; 是 曲线 在 拐 
点 5; 处 的 切线 斜率 。z 是 平均 数 为 5;、 标 准 差 为 1/a; 的 0 的 标准 分 数 , 即 > 一 ai (0; 一 b;)。e 
表示 exp, 代 表 以 底 为 2.718 的 指数 。 

自 洛 德 于 1952 年 提出 第 一 个 IRT 数学 模型 后 ,许多 研究 者 纷纷 提出 了 其 他 的 IRT 数 
学 模型 。 其 中 ,目前 应 用 最 多 的 是 伯 恩 鲍 姆 (A. Birnbaum) F 1957 年 和 1958 年 提出 的 单 参 
数 、 双 参数 和 三 参数 Logistic 模型 ,丹麦 学 者 拉 希 (G. Rasch) F 1960 年 提出 的 Rasch 模型 
(Rasch model) (与 单 参 数 Logistic 模型 等 价 ), 以 及 塞 姆 吉 玛 (F. Samejima) 于 1969 年 提出 
的 Samejima 等 级 反应 模型 ,等 等 。 下 面 介绍 几 种 常见 的 两 级 (二 值 ) 记 分 模型 和 多 级 (多 值 ) 
记分 模型 。 

(一 ) 两 级 记分 模型 

1. 单 参 数 Logistic 模型 (One-Parameter Logistic Model,1PLM) 

单 参数 Logistic 模型 的 数学 公式 如 下 所 示 : 


PO) =F (10-2) 


1 

在 公式 (10 一 2) 中 ,i=1,2,…,m;j 二 1.2,…,n;Pi(0;) 表 示 能 力 水 平 为 0 的 被 试 j 在 
试题 i 上 正确 作答 的 概率 ;6b; 表示 试题 i 的 难度 参数 ; Pi;(b) 是 一 条 S 形 曲线 ,其 值 介 于 0 
和 1 之 间 。4 条 单 参数 Logistic 模型 的 项 目 特征 曲线 如 图 10 -3 所 示 。 

在 项 目 反 应 理论 中 ,试题 难度 的 定义 是 : 试题 难度 参数 b; 的 位 置 正 好 落 在 正确 作答 概 
率 为 0. 50 时 能 力量 纲 (ability scale) 上 的 位 置 点 ;换言之 , 当 被 试 能 力 和 试题 难度 相等 时 ( 即 
0; 一 6 二 0) ,被 试 答对 某 试题 的 机 会 是 50% 。 当 被 试 能 力 小 于 试题 难度 时 ( 即 0; — b <0) ,被 
试 答对 某 试题 的 机 会 便 低 于 50% ;反之 , 当 被 试 能 力 大 于 试题 难度 时 ( 即 9 — b> 0) ,被 试 答 
对 某 试题 的 机 会 便 高 于 50%. b: 值 越 大 ,被 试 答对 该 试题 的 难度 越 大 ,此 时 ,被 试 要 想 有 
50% 答 对 某 试题 的 机 会 ,被 试 便 需 要 有 较 高 的 能 力 才能 办 到 。 越 困难 的 试题 ,其 项 目 特征 曲 
线 越 靠近 能 力量 纲 的 右 方 ;反之 , 越 简单 的 试题 .其 项 目 特征 曲线 越 靠近 能 力量 纲 的 左 方 。 
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E 10-3 4 条 单 参数 Logistic 模型 的 项 目 特征 曲线 


在 图 10--3 中 ,4 条 项 目 特征 曲线 的 试题 难度 参数 分 别 为 b= 二 一 1. 5,bs 二 0.0,5 二 1.5， 
by 二 2.0, 其 值 的 大 小 分 别 决定 了 4 条 曲线 在 能 力量 纲 上 的 相对 位 置 。 因 为 bi <b: <b: <b» 

a 的 4 条 项 目 特征 曲线 逐渐 依次 向 图 10 -3 的 右 方 平移 ,以 表示 出 它们 的 不 同位 置 。 
因此 ,试题 难度 参数 有 时 又 叫 作 位 置 参 数 (location parameter)。 理 论 上 ,b; 值 的 大 小 介 于 
[一 ,十 cc] 之 间 , 但 在 实际 应 用 中 ,通常 只 取 [ 一 4, 十 4] 之 间 的 范围 。 由 图 10 - 3 所 示 , 如 
前 所 述 ,b; 值 越 大 表示 试题 越 困 难 ,b; 值 越 小 表示 试题 越 简单 。 

由 图 10 —3 所 示 ,4 条 曲线 的 形状 是 一 致 的 ,但 在 能 力量 纲 上 的 位 置 各 有 不 同 , 这 点 显示 
出 : 在 单 参数 Logistic 模型 下 ,影响 被 试 在 试题 上 表现 好 坏 的 试题 特性 只 有 一 个 , 那 就 是 该 
试题 的 难度 。 单 参数 Logistic 模型 并 不 把 试题 区 分 度 考 虑 在 内 ,其 实 , 这 种 做 法 等 同 于 假设 
所 有 试题 的 区 分 度 都 是 相等 的 (通常 设 定 为 1) 。 同 时 , 它 也 假设 项 目 特征 曲线 的 下 限 (lower 
asymptote) 为 零 , 即 对 于 能 力 非常 低 的 被 试 而 言 , 其 答对 某 试 题 的 机 会 是 零 ; 换 言 之 , 单 参数 
Logistic 模型 假设 被 试 没有 猜测 现象 。 

对 于 公式 (10 - 2) ,如 果 将 常数 1.7 去 掉 , 那 么 公式 (10 - 2) 就 变 成 了 Rasch 模型 的 数学 
公式 ,如 下 所 示 : 


| fh) 
PO) =F a= Tp 10-3): 

在 公式 (10 -3) 中 ,各 符号 的 含义 与 公式 (10 -2) 相 同 。 

单 参数 Logistic 模型 去 掉 1.7 后 ,等 价 于 Rasch 于 1960 年 提出 的 Rasch 模型 。 因 此 ， 
从 某 种 意义 而 言 ,Rasch 模型 与 单 参数 Logistic 模型 是 等 价 的 。 如 此 , 单 参数 Logistic 模型 
有 时 也 称 之 为 Rasch 模型 ,以 纪念 这 位 丹麦 数学 家 在 测验 理论 上 所 做 出 的 贡献 。Rasch 模 
型 通行 于 欧洲 地 区 的 心理 测量 学 界 , 以 及 美国 芝加哥 大 学 等 。 很 明显 ,Rasch 模型 或 单 参数 
Logistic 模型 的 假设 是 非常 严格 的 。 而 这 些 模 型 的 假设 适当 与 否 , 要 视 测验 数据 本 身 的 特性 
而 定 。 例 如 ,从 一 个 同 质 性 很 高 的 题库 (item bank) 中 选取 一 部 分 数量 的 试题 编制 而 成 的 测 
验 , 便 非常 符合 这 些 假设 的 要 求 ,这 类 情境 常见 于 有 良好 施 测 条 件 的 标准 参照 测验 
(criterion-referenced tests) 。 

2. 两 参数 Logistic #4 (Two-Parameter Logistic Model.2PLM) 

两 参数 Logistic 模型 的 数学 公式 如 下 所 示 : 
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在 公式 (10 -4) 中 ,各 符号 的 含义 与 公式 (10 - 2) 相同 。 但 是 ,公式 (10 -4) 增 加 了 一 个 
参数 w , 即 试题 区 分 度 参 数 (discrimination parameter) ,这 个 参数 的 含义 与 经 典 测验 理论 中 
的 区 分 度 含义 相似 ,用 来 描述 试题 i 所 具有 鉴别 力 大 小 的 特性 。5 条 两 参数 Logistic 模型 的 
项 目 特征 曲线 如 图 10 -4 所 示 。 
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E 10-4 5 条 两 参数 Logistic 模型 项 目 特征 曲线 


很 明显 ,两 参数 Logistic 模型 是 在 单 参数 Logistic 模型 的 基础 上 加 入 了 试题 区 分 度 参数 而 
形成 的 。 试 题 区 分 度 参数 w ,刚好 与 六 点 的 项 目 特征 曲线 的 斜率 (slope) 相 等 。 项 目 特征 曲线 
越 陡 的 试题 ,区 分 度 参 数值 越 大 。 换 句 话 说 ,区 分 度 越 大 的 试题 ,其 区 别 出 不 同 能 力 水 平 被 试 
的 功能 越 好 , 即 分 辨 的 效果 越 好 。 事 实 上 ,试题 能 否 有 效 区 别 出 以 能 力 水 平 为 6 的 上 下 两 组 
( 即 高 于 9 和 小 于 等 于 4) 被 试 的 差异 ,与 对 应 于 4 量 纲 的 项 目 特征 曲线 的 斜率 有 关 。 

理论 上 ,ai 值 的 范围 在 [一 2 ,十 c] 之 间 , 但 通常 舍弃 负 的 a; 值 不 用 ,这 是 因为 负 的 a; 
值 的 项 目 特征 曲线 意味 着 : 能 力 越 高 的 被 试 答对 某 试题 的 概率 越 低 ,. 这 似乎 与 常理 相 违 背 ， 
所 以 通常 不 对 负 的 a; 值 进行 讨论 。 通常 ,oa 值 也 不 可 能 太 大 ,常用 的 a; 值 范围 介 于 0 至 3 
之 间 ;a; 值 越 大 ,代表 项 目 特征 曲线 越 陡 ,试题 越 具 有 良好 的 分 辨 能 力 ;a; 值 越 小 ,代表 项 目 
特征 曲线 越 平坦 ,正确 作答 概率 与 能 力 之 间 形 成 一 种 缓慢 增加 的 函数 关系 , 即 试题 无 法 明显 
地 分 辨 出 被 试 之 问 的 能 力 水 平 。 

图 10 -4 所 示 的 5 条 项 目 特征 曲线 的 项 目 参数 分 别 为 aj 一 1. 5,b 一 一 1. 5;as 一 0. 6,bs 

0. 0sa3 =1. 5b; =0. Osa, =0. 756,=1. 53a5=1.5,6;=1.5, RHB MRE T A AE h 
线 的 形状 不 会 是 完全 平行 的 ,因为 试题 区 分 度 不 尽 相同 。 由 图 10 -4 可 知 , 当 项 目 特征 曲线 
的 a; 值 相等 时 ,曲线 便 能 形成 平行 的 S 形 曲线 ,如 第 1.3.5 条 项 目 特征 曲线 ; 当 项 目 特征 曲 
线 的 a; 值 不 相等 时 ,曲线 便 不 能 形成 平行 的 S 形 曲线 ,区 分 度 参 数值 越 大 ,项 目 特征 曲线 越 
陡峭 ,如 ai >a: ,表示 第 1 条 项 目 特征 曲线 比 第 2 条 项 目 特征 曲线 更 陡峭 。 由 图 10 — 4 也 可 
知 ,这 些 曲 线 的 下 限 值 都 是 零 , 即 两 参数 Logistic 模型 也 不 把 被 试 的 猜 题 因素 考虑 在 内 ,这 
点 与 单 参 数 Logistic 模型 相同 。 

3. 三 参数 Logistic 模型 (Three-Parameter Logistic Model,3PLM) 

三 参数 Logistic 模型 的 数学 公式 如 下 所 示 : 
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在 公式 (10 -5) 中 ,各 符号 的 含义 与 公式 (10 - 4) 相同 。 但 是 ,公式 (10 一 5) 增 加 了 一 个 
参数 c;, 即 试题 猿 测度 参数 (guessing parameter) 或 伪 机 遇 水 平 参数 (pseudo-chance-level 
parameter) ,这 个 参数 提供 了 项 目 特征 曲线 一 个 大 于 零 的 下 限 (lower asymptote) ,代表 着 能 
力 很 低 的 被 试 猜 对 某 试题 的 概率 。 

三 参数 Logistic 模型 是 在 双 参 数 Logistic 模型 的 基础 上 多 增加 了 一 个 参数 c; 而 形成 
的 , 即 把 低能 力 被 试 的 猜测 因素 也 考虑 在 模型 内 。 当 然 , 猜 题 是 这 些 被 试 在 某 些 试题 上 很 可 
能 的 表现 行为 。 通 常 ,c; 参数 的 值 比 被 试 在 完全 随机 猜测 下 猜 答 的 概率 值 稍 小 。6 条 三 参数 
Logistic 模型 的 项 目 特征 曲线 如 图 10- 5 所 示 。 
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图 10-5 6 条 三 参数 Logistic 模型 项 目 特征 曲线 
在 图 10 -5 中 ,6 条 项 目 特征 曲线 的 项 目 参数 如 表 10 - 1 所 示 。 


表 10-1 三 参数 Logistic 模型 下 6 条 项 目 特征 曲线 的 项 目 参数 


， 
16 24 32 400, 


试题 编号 
参 数 
1 2 3 4 5 6 
a; 参数 1.60 0. 80 1.60 1.60 1.60 0.40 
b 参数 1.00 1.00 1.00 —1.50 一 0.50 一 0.90 
ci 参数 0. 00 0. 00 0.21 0.00 0.05 0.18 


K 10-1 的 这 些 参数 ,决定 了 这 6 条 项 目 特征 曲线 的 形状 可 能 存在 不 同 。 比 较 图 10 -5 
的 第 1、3、4、5 条 与 第 2.6 条 项 目 特 征 曲线 的 形状 ,可 以 看 出 试题 区 分 度 参 数 对 项 目 特征 曲 
线 的 陡 度 的 影响 。 比 较 第 1 条 与 第 3 条 项 目 特征 曲线 的 形状 ,可 以 看 出 c; 参数 对 项 目 特征 
曲线 的 形状 也 扮演 着 重要 的 角色 。 同 样 地 ,比较 第 3、5.6 条 项 目 特征 曲线 之 间 的 下 限 , 也 提 
供 了 不 少 有 关 ci 参数 的 信息 。 

4. 四 参数 Logistic #4 (Four-Parameter Logistic Model.4PLM) 

四 参数 Logistic 模型 的 数学 公式 如 下 所 示 : 

PO) =c + TT 


(10-6) 
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在 公式 (10 -6) 中 ,各 符号 的 含义 与 公式 (10 - 5) 相同 。 但 是 ,公式 (10 -6) 增 加 了 一 个 
参数 7;, 即 试题 上 渐 近 线 参数 (upper asymptote parameter) ,这 个 参数 提供 了 项 目 特征 曲线 
一 个 小 于 1 的 上 限 ,代表 着 高 能 力 被 试 答 错 某 试题 的 偶然 概率 。8 条 四 参数 Logistic 模型 的 
项 目 特征 曲线 如 图 10 — 6 所 示 。 
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图 10-6 8 条 四 参数 Logistic 模型 的 项 目 特征 曲线 
在 图 10 -6 中 ,8 条 项 目 特征 曲线 所 对 应 的 项 目 参 数 如 表 10 — 2 所 示 。 
表 10-2 四 参数 Logistic 模型 下 8 条 项 目 特征 曲线 的 项 目 参数 


试题 编号 
参数 
1 2 3 4 5 6 7 8 
ai 参数 1. 00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
b BR 0. 50 0. 50 0.50 0.50 —0.50 —0.50 —0.50 —0.50 
ci BR 0. 10 0. 05 0.01 0.15 0.10 0.10 0.10 0.10 
7 参数 0. 90 0. 90 0. 90 0. 90 0. 90 0.93 0.95 0. 99 


从 表 10-2 和 图 10-6 可知, 第 8 条 项 目 特征 曲线 的 % 值 最 大 (0. 99) ,最 接近 渐 近 线 顶 
部 ,这 表明 y; 参数 值 越 大 ,项 目 特征 曲线 越 靠近 顶部 , 即 出 现 *“ 天 花 板 效应 ”。 

从 表 10 -2 和 图 10 -6 也 可 知 ,第 3 条 项 目 特征 曲线 的 c; 值 最 小 (0. 01) ,最 接近 渐 近 线 
底部 ,这 表明 c; 参数 值 越 小 ,项 目 特征 曲线 越 靠近 底部 , 即 出 现 *“ 地 板 效应 ”。 

(=) 多 级 记分 模型 

以 上 介绍 的 几 个 模型 都 是 适用 于 两 级 (二 值 ) 记 分 试题 的 IRT 数学 模型 ,此 外 还 有 由 两 
级 记分 模型 进一步 发 展 起 来 的 多 级 (多 值 ) 记 分 模型 。 接 下 来 ,将 介绍 几 个 较为 常见 的 多 级 
记分 模型 ,它们 既 可 以 处 理 多 级 记分 试题 :也 可 以 处 理 两 级 记分 试题 .如 Samejima 等 级 反应 
模型 .评定 量 表 模型 、 分 部 评分 模型 和 拓 广 分 部 评分 模型 等 。 

1. Samejima 等 级 反应 模型 (Graded Response Model, GRM) 

塞 姆 吉 玛 (Samejima) 于 1969 年 在 两 参数 Logistic 模型 (2PLM) 的 框架 下 ,建立 了 
Samejima 等 级 反应 模型 ,突破 了 过 去 项 目 反 应 理论 模型 只 能 用 于 两 级 记分 试题 的 情形 。 
GRM 假设 每 个 试题 只 有 一 个 区 分 度 值 ,但 有 多 个 等 级 的 难度 值 .而 且 每 个 试题 在 各 个 等 级 
上 的 难度 值 是 严格 单调 递增 的 。 若 试题 i 有 f; 个 等 级 ( 即 有 f; 十 1 个 分 值 ), 则 6 <b 


口 


Ps 第 十 章 项 目 反 应 理论 a 


bit Bins, 。 塞 姆 吉 玛 提出 ,可 以 通过 两 步 获 得 能 力 为 9; 的 被 试 在 试题 f 上 人 恰 得 某 
个 得 分 的 概率 ,如 下 。 

第 一 步 : 能 力 为 9, 的 被 试 7 在 第 i 个 试题 上 的 得 分 不 低 于 (等 于 或 高 于 )t 分 的 概率 可 
表示 为 


Pin TP Ti 

FER - 7P, Pio =1 Pig 030; 表示 第 i PIR KDE bu RRR i 个 试题 
的 第 t 个 等 级 的 难度 值 (t 一 1,2，… 广 )。 

第 二 步 : 能 力 为 0 的 被 试 j 在 第 ; 个 试题 上 恰 得 上 分 的 概率 Pu 可 表示 为 

Pio Pi -Pioi ihh (10-8) 

在 公式 (10 -8) 中 ,Pi 为 GRM 的 运算 特征 函数 (operating characteristic function) 。 

2. 评定 量 表 模型 (Rating Scale Model. RSM) 

评定 量 表 模型 是 Samejima 等 级 反应 模型 的 特例 ,例如 ,对 于 一 些 能 力 、 态 度 测验 ,这 些 
测验 的 题目 选项 (等 级 ) 代 表 了 不 同 的 能 力 、 态 度 倾向 ,可 视 为 不 同 的 难度 ,也 可 认为 这 类 题 
目的 等 级 之 间 跨 度 是 一 致 的 。 对 于 这 些 能 力 、 态 度 测验 的 题目 ,可 以 使 用 评定 量 表 模型 来 描 
述 , 该 模型 表达 的 意义 为 ,具有 能 力 9; 的 被 试 7 在 第 i 个 试题 上 恰 得 t 分 的 概率 可 表示 为 : 
IFe iG are) SE 

在 公式 (10 - 9) 中 ,ai 表示 第 i 个 试题 的 区 分 度 ;4; 表示 位 置 参 数 ;c, 表示 各 个 等 级 之 间 
的 跨度 (t=0,1,2,…,f;)。 

3. 分 部 评分 模型 (Partial Credit Model. PCM) 

分 部 评分 模型 是 反映 某 多 级 记分 试题 做 出 完全 正确 的 作答 需要 经 过 若干 步骤 ,步骤 之 
间 具 有 某 种 次 序 ,被 试 不 能 略 去 某 一 中 间 步 又 对 下 一 步 作答 ,各 步骤 的 难度 不 一 定 是 逐步 弟 
增 的 。 分 部 评分 模型 表达 的 意义 为 ,具有 能 力 b 的 被 试 7 在 试题 上 完成 到 第 zx 步 上 得 分 
的 概率 ,其 模型 的 表达 式 可 表示 为 

Dos 
Pas = go (1 = 0,1,2; fi) (10-10) 
Sear by) 

在 公式 (10 -10) 中 ,二 0,1,2,… ,fi, 表 示 完 成 该 题 总 共 需 要 f; 步 ;zx 表示 总 f; 步 中 的 
某 一 步 ,要 得 到 xz 分 ,必须 先 完 成 前 x 一 1 步 ;c 表示 完成 到 f; 步 中 的 第 c 步 ;6b;,, 表 示 第 i 个 
试题 的 第 上 个 等 级 的 难度 值 (1 二 1,2,…,/;)。 

4. 拓 广 分 部 评分 模型 (Generalized Partial Credit Model, GPCM) 

拓 广 分 部 评分 模型 是 在 分 部 评分 模型 的 基础 上 增加 了 区 分 度 参数 a; ,其 模型 的 表达 式 
可 表示 为 


(2=1, 2.06) (10-7) 


Pins (10-9) 
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在 公式 (10 -11) 中 ,a; 表示 区 分 度 参数 ;其 他 表示 符号 解释 同 公式 (10 - 10) 。 


P (t = 0,1,2, f;) (10-11) 
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二 、 进 行 参 数 估计 


当 搜集 到 受 试 者 在 每 道 题目 上 的 反应 后 ,也 确定 了 IRT 的 数学 模型 , 接 下 来 就 要 估计 
受 试 者 的 能 力 参 数 和 项 目 参数 (包括 难度 .区 分 度 、 猜 测度 等 )。 目 前 ,有 相当 多 的 软件 可 以 
进行 项 目 反应 理论 的 参数 估计 ,如 Bilog, Multilog, Parscale, Conquest, ANOTE 等 软件 。 

以 下 简单 介绍 最 常用 的 参数 估计 方法 : 最 大 概 似 估 计 (maximum likelihood 
estimation), 又 译作 极 大 似 然 估计 。 现 假设 有 位 受 试 者 作答 5 题 ,其 难度 分 别 为 一 2、 一 1、0、 
1、2。 其 答题 反应 形态 为 1、1、1、0、0。 也 就 是 说 ,其 答对 较 易 的 前 三 题 , 答 错 较 难 的 后 两 题 ， 
这 算是 很 合理 的 答题 反应 形态 。 试 问 该 受 试 者 的 能 力 是 多 少 ? 他 的 能 力也 许 很 低 , 也 许 中 
等 ,也 许 很 高 ,这 都 有 可 能 造成 他 的 答题 反应 形态 是 1、1、1、0、0, 关 键 是 看 哪 一 个 最 有 可 能 。 
根据 最 大 概 似 估计 的 原则 ,就 是 要 找到 受 试 者 的 能 力 在 何 种 水 平时 ,最 有 可 能 出 现 1、1、1.、0、 
0 的 答题 反应 形态 。 以 下 用 Rasch 模型 来 说 明 。 

当 和 一 一 3, 久 一 一 2 时 ,得 1 分 的 概率 是 0. 268 9, 这 可 利用 本 章 公式 (10 - 3) AY Rasch 
模型 的 数学 公式 求 得 


e47? e[ 一 3 一 (一 2] 
Ier lite Tn 
同 理 ,可 以 求 得 , 当 0,== 一 3,6; 二 一 1] 时 ,得 1 分 的 概率 是 0.119 2; 06, =—3,.0,=0 时 ， 
得 1 分 的 概率 是 0. 047 4。 
而 当 0== 一 3,6; 二 1 时 ,得 0 分 的 概率 同样 可 利用 本 章 公 式 (10 - 3) 的 Rasch 模型 的 数 
学 公式 求 得 ,只 不 过 需要 进行 适当 变换 ,如 下 : 


Q,(0,)=1—P,(8,) 


P;(0,) 0. 268 9 


1 1 
IE Te n =O. 982 0 


ER Q;(6;) 表 示 能 力 水 平 为 0; 的 被 试 在 试题 上 错误 作答 的 概率 。 

同 理 , 可 以 求 得 , 当 60;== 一 3,b; 二 2 时 ,得 0 分 的 概率 是 0.993 3。 

MA.“ 0=—3 时 ,得 到 1、1、1、0.0 的 概 似 (likelihood, 又 译作 似 然 值 ) 就 是 以 上 5 种 
概率 的 乘积 , 即 0. 268 9X0.119 2X0.047 4X0. 982 0X0.993 3 二 0.001 5, 如 表 10-3 概 似 
结果 的 第 一 行 所 示 。 

接 下 来 ,可 以 继续 算出 当 0; 等 于 其 他 数值 (如 9 三 一 2) 时 的 概 似 ,所 得 结果 如 表 10 -3 
和 图 10-7 所 示 。 
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E 10-7 Rasch 模型 下 作答 5 题 (得 分 为 1,1,1,0,0) 能 力 与 概 似 的 关系 
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R10-3 Rasch 模型 下 作答 5 题 的 能 力 、 概 率 和 概 似 的 关系 


题目 1 2 3 4 5 
难度 =2 =] 0 1 2 
得 分 1 1 1 0 0 
能 力 概率 概率 概率 概率 概率 概 似 
—3.0 0. 268 9 0. 119 2 0.047 4 0. 982 0 0.9933 0. 001 5 
一 2.8 0.3100 0.1419 0.057 3 0.9781 0. 991 8 0. 002 4 
一 2.6 0. 354 3 0. 168 0 0.0691 0.9734 0. 990 0 0. 004 0 
一 2.4 0.4013 0.1978 0. 083 2 0.9677 0. 987 9 0. 006 3 
一 2.2 0. 450 2 0. 2315 0. 099 8 0. 960 8 0.985 2 0. 009 8 
一 2.0 0. 500 0 0. 268 9 0.1192 0.9526 0. 982 0 0. 015 0 
一 1.8 0.549 8 0.3100 0.1419 0.9427 0.9781 0.0223 
一 16 0.5987 0. 354 3 0. 168 0 0. 930 9 0.9734 0. 032 3 
一 1.4 0.6457 0. 401 3 0.1978 0.9168 0.9677 0. 0455 
一 1.2 0. 690 0 0. 450 2 0.2315 0. 900 2 0. 960 8 0, 062 2 
一 1.0 0.7311 0. 500 0 0. 268 9 0. 880 8 0.9526 0, 082 5 
—0.8 0. 768 5 0. 549 8 0.3100 0.858 1 0.9427 0. 106 0 
一 0.6 0. 802 2 0. 598 7 0. 3543 0. 8320 0. 930 9 0.1318 
一 0.4 0. 832 0 0. 645 7 0.4013 0. 802 2 0.916 8 0. 158 6 
=0.2 0. 858 1 0. 690 0 0.4502 0.7685 0. 900 2 0.1844 
0.0 0. 880 8 0.7311 0. 500 0 0.7311 0. 880 8 0. 207 3 
0.2 0. 900 2 0.7685 0. 549 8 0. 690 0 0. 858 1 0. 225 2 
0.4 0.9168 0. 802 2 0.5987 0.6457 0. 832 0 0. 236 5 
0.6 0. 930 9 0. 832 0 0.6457 0.5987 0. 802 2 0. 240 2 
0.8 0.9427 0. 858 1 0. 690 0 0.5498 0.7685 0. 235 9 
1.0 0.9526 0. 880 8 0.7311 0. 500 0 0.7311 0. 224 2 
1,2 0. 960 8 0. 900 2 0. 7685 0. 450 2 0. 6900 0. 206 5 
1.4 0.9677 0.9168 0. 802 2 0.4013 0. 6457 0. 184 4 
1.6 0.9734 0. 930 9 0. 832 0 0. 354 3 0.5987 0.1599 
1.8 0.9781 0.9427 0.858 1 0.3100 0.549 8 0. 134.9 
2.0 0. 982 0 0. 952 6 0. 880 8 0. 268 9 0. 500 0 0.1108 
2.2 0. 985 2 0. 960 8 0. 900 2 0. 2315 0. 450 2 0. 088 8 
2.4 0. 987 9 0. 9677 0.9168 0.1978 0. 4013 0. 069 6 
2.6 0. 990 0 0.9734 0. 930 9 0. 168 0 0. 354 3 0. 053 4 
2.8 0.9918 0.9781 0.9427 0.1419 0.3100 0, 040 2 
3.0 0. 993 3 0. 982 0 0. 952 6 0.119 2 0. 268 9 0. 029 8 


从 表 10-3 和 图 10-7 的 结果 可 以 看 出 , 当 9 二 0.6 时 , 概 似 最 大 ,为 0.240 2, 因 此 我 们 
可 以 说 该 受 试 者 的 能 力 最 有 可 能 是 0. 6。 
其 他 受 试 者 的 能 力 , 也 可 以 仿效 上 述 做 法 一 一 估计 出 来 。 不 过 ,这 些 能 力 估计 都 必须 假 
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定 题目 难度 已 知 。 然 而 ,现实 中 题目 难度 可 能 预先 未 知 。 此 时 ,可 以 首先 暂时 给 定 题目 的 难 
度 ,如 利用 Ln(Po/P) 等 公式 来 初 估 题 目 难 度 ,其 中 Po Al 已 分 别 是 受 试 者 答 错 和 答对 该 题 
的 比例 。 然 后 ,根据 类 似 于 上 述 例 子 的 做 法 估计 受 试 者 的 能 力 。 接 着 ,在 受 试 者 能 力 已 知 的 
情况 下 ,重新 估计 题目 的 难度 ,得 到 新 的 题目 难度 后 ,又 再 次 估计 受 试 者 的 能 力 。 最 后 ,再 次 
估计 题目 的 难度 ,如 此 循环 ,直到 前 后 两 次 的 估计 值 没有 很 大 的 变化 为 止 。 

以 上 只 是 进行 参数 估计 的 基本 原理 ,一 般 的 软件 多 采用 更 为 复杂 和 有 效 的 方法 进行 估 
计 , 尤 其 是 当 模型 参数 估计 相当 复杂 时 ,但 限于 篇 幅 , 在 此 就 不 一 一 介绍 了 。 


三 、 分 析 模 型 与 数据 拟 合 


只 有 当 项 目 反 应 数据 拟 合 IRT 数学 模型 预期 时 ,才能 得 到 良好 的 IRT 分 析 结 果 。 否 
则 ,即使 使 用 再 好 的 IRT 数学 模型 ,也 得 不 到 较 好 的 分 析 结 果 。 因 此 ,分 析 模 型 与 数据 拟 合 
就 变 得 非常 重要 。 

当 参 数 估计 完成 后 ,也 就 是 每 位 受 试 者 的 能 力 和 每 道 题目 的 难度 、 区 分 度 、 猜 测度 等 参 
数 已 知 时 ,就 可 以 计算 每 位 受 试 者 在 每 道 题目 上 的 答对 概率 ,这 就 是 期 望 分 数 (expected 
score) 。 然 后 ,将 期 望 分 数 减 去 观察 分 数 (observed score) 就 得 到 了 残 差 (residual) 。 如 果 残 
差 很 大 (也 就 是 期 望 分 数 与 观察 分 数 相 去 甚 远 ) ,那么 意味 着 模型 与 数据 没有 很 好 地 进行 了 
拟 合 。 反 之 ,如 果 残 差 很 小 ,那么 意味 着 模型 与 数据 很 好 地 进行 了 拟 合 。 

进行 残 差分 析 重 在 检验 : 四 受 试 者 的 答题 反应 形态 是 否 合理 ,这 称 为 person fit;@ 题 目 
的 被 答 反应 形态 是 否 合理 ,这 称 为 item fit。 举 例 而 言 , 张 三 作答 了 20 道 题 目 ,依照 上 述 做 
法 ,就 可 以 计算 出 他 在 这 每 一 道 题目 上 的 残 差 。 接 下 来 ,必须 通过 某 种 统计 程序 来 判定 这 些 
残 差 是 否 真 的 非常 大 (如 张 三 常 答 错 简单 的 题目 . 却 答对 许多 很 难 的 题目 )。 如 果 是 ,那么 就 
判定 张 三 的 反应 不 拟 合 模型 的 预期 。 反 之 ,如 果 不 是 ,那么 就 判定 张 三 的 反应 拟 合 模型 的 
预期 。 

同 理 ,可 以 判定 某 个 题目 是 否 拟 合 模型 的 预期 。 例 如 ,有 100 位 受 试 者 作答 了 第 1 道 题 
目 , 因 此 就 有 了 100 个 观察 分 数 和 100 个 期 望 分 数 。 计 算 其 残 差 , 接 着 通过 某 种 统计 程序 来 
判定 这 些 残 差 是 否 真 的 非常 大 (如 很 多 低能 力 的 人 答对 该 题 ,但 很 多 高 能 力 的 人 却 答 错 该 
题 )。 如 果 是 ,那么 就 判定 该 题 不 拟 合 模型 预期 ,是 一 个 有 问题 的 答题 反应 形态 。 反 之 ,如 果 
不 是 ,那么 就 判定 该 题 拟 合 模型 预期 ,是 一 个 没有 问题 的 答题 反应 形态 。 

在 真实 资料 里 ,不 难 发 现 部 分 受 试 者 的 答题 反应 形态 和 题目 的 被 答 反 应 形态 有 可 能 不 
拟 合 模型 预期 的 情况 ,造成 这 些 不 拟 合 的 原因 是 多 方面 的 :如 下 。 

第 一 , 受 试 者 的 答题 反应 形态 不 拟 合 模型 预期 的 原因 可 能 有 很 多 种 。 例 如 , 受 试 者 乱 
答 、 作 整 , 也 可 能 在 考试 刚 开 始 时 非常 紧张 ,以 致 答 错 那 些 出 现在 考卷 前 面 的 题目 (通常 是 简 
单 的 题目 先 出 现 ) ,又 或 者 考 到 后 来 非常 疲倦 ,无 心 作答 ,以 致 摆 在 测验 卷 后 面 很 简单 的 题目 
也 没 答对 。 受 试 者 也 可 能 因为 使 用 某 种 特殊 的 解 题 技巧 ,以致 可 以 很 幸运 地 答对 高 难度 的 
题目 。 又 或 者 这 个 题目 他 以 前 曾经 做 过 或 补习 班 刚 教 过 ,因此 这 个 题目 对 他 而 言 , 变 得 非常 
简单 。 总 之 ,无 论 是 哪 种 原因 ,必须 承认 该 受 试 者 的 答题 反应 形态 跟 一 般 的 受 试 者 大 相 径 
庭 ,因此 无 法 用 同一 种 判断 标准 来 量化 他 的 程度 。 从 临床 的 观点 来 看 ,这 些 有 着 异常 反应 的 
受 试 者 非常 值得 深入 追踪 ,说 不 定 因而 可 以 看 到 新 的 现象 ,得 到 新 的 结论 。 

第 二 ,题目 的 被 答 反 应 形态 不 拟 合 模 型 预期 的 原因 也 可 能 有 很 多 种 。 例 如 , 题 意 不 清 ， 
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以 致 高 能 力 的 人 钻 牛 角 尖 反而 答 错 。 又 或 者 这 个 题目 牵涉 到 其 他 的 维度 ,如 算数 的 应 用 题 ， 
用 字 遗 词 过 于 深奥 ,以致 因为 语文 程度 不 佳 , 看 不 懂 题 意 ,无 法 作答 ,这 并 不 是 算数 能 力 不 佳 
所 致 。 就 以 美国 研究 生 入 学 考试 的 GRE(Graduate Record Examinations) 的 逻辑 分 测验 来 
说 ,因为 是 英文 出 题 ,所 以 中 国人 的 平均 分 数 往往 比美 国人 低 很 多 ,但 这 并 不 代表 中 国人 的 
逻辑 能 力 远 低 于 美国 人 。 如 果 该 测验 是 中 文 出 题 ,那么 想必 再 优秀 的 美国 人 ,也 不 见得 会 赢 
过 中 国人 。 某 个 题目 的 被 答 反应 形态 不 拟 合 模型 预期 ,就 意味 着 这 个 题目 跟 测 验 内 的 其 他 
题目 并 不 协调 。 它 所 测 到 的 潜在 特质 跟 其 他 题目 所 测量 到 的 潜在 特质 并 不 相同 ,因此 不 满 
足 单 维 性 的 假设 ,应 该 将 此 题目 修改 或 剔除 。 不 过 ,这 并 不 表示 该 题目 不 重要 ,而 是 它 跟 其 
他 题目 没有 同步 ,不 宜 摆 在 一 起 分 析 。 如 果 该 题目 所 测量 的 潜在 特质 真 的 很 重要 ,那么 就 应 
该 独立 去 编制 一 份 测验 ,好 好 地 去 测量 ,而 不 是 硬 把 它 跟 其 他 题目 凑 在 一 起 ,这 反而 会 污染 
分 数 的 意义 。 


第 三 节 ”项目 反应 理论 应 用 


在 日 常生 活 中 ,我 们 不 难 发 现 , 人 们 的 行为 举止 就 好 像 处 于 某 些 心理 特质 的 定量 控制 之 
中 ,甚至 觉得 好 像 是 这 些 心理 特质 实际 上 决定 了 他 的 一 切 行为 ,这 是 吸引 心理 学 家 探究 人 类 
心理 特质 的 起 因 。 但 是 ,至 今 没 有 任何 迹象 证 明 这 些 心 理 量 存在 于 人 的 物理 或 生理 知觉 之 
中 。 心 理学 上 把 这 类 制约 人 的 行为 的 心理 特征 称 为 心理 特质 ,同时 这 种 心理 特质 并 没有 明 
确 它 的 物理 与 生理 属性 ,因此 又 称 为 潜在 特质 (latent trait) 。 如 此 定义 的 潜在 特质 仅仅 是 一 
种 统计 结构 ,并 不 能 说 明 它 是 一 种 物理 或 生理 的 实体 。 心 理 测量 的 任务 就 是 要 定量 地 估计 
个 体 在 每 一 种 这 样 的 潜在 特质 量 纲 上 的 位 置 ,然后 又 据 所 估 个 体 的 潜在 特质 位 置 去 解释 或 
预测 个 体 在 类 似 境况 下 将 会 产生 的 行为 反应 。 在 心理 测量 中 ,潜在 特质 通常 被 称 为 被 试 能 
力 (应 该 注意 到 它 与 理论 心理 学 常用 的 能 力 概念 的 区 别 )。 但 是 ,人 类 的 这 些 心 理 特质 或 直 
接 称 其 为 潜在 特质 ,由 于 它 的 潜在 性 ( 即 物理 .生理 属性 不 明 ) ,因而 至 今 还 未 被 它 的 主体 直 
接 探 明 ,这 就 给 心理 测量 带 来 了 很 大 的 困难 。 于 是 ,测量 学 家 只 有 借助 于 一 些 可 观察 的 变量 
来 间接 鉴别 与 定义 这 些 潜在 特质 ,才能 进而 考察 出 这 些 潜 在 特质 对 人 的 哪些 行为 产生 重要 
影响 。 项 目 反 应 理论 可 以 应 用 于 估计 个 体 的 这 些 潜在 特质 ,其 重要 应 用 主要 表现 在 以 下 几 
个 方面 。 

第 一 ,对 题库 建设 的 贡献 。 题 库 质量 高 低 的 一 个 重要 标志 是 题库 中 题目 技术 参数 的 完 
备 性 与 准确 性 。 题 目 技术 参数 越 完 备 , 题 库 的 可 控 程度 就 越 高 ,选择 题目 的 针对 性 就 越 强 。 
经 典 测验 理论 题库 的 计量 技术 参数 主要 是 难度 .区 分 度 和 猜测 度 。 项 目 反 应 理论 题库 的 计 
量 技术 参数 除了 这 三 个 外 ,还 增加 了 题目 信息 函数 。 把 题目 信息 函数 作为 技术 参数 在 人 题 
库 是 项 目 反应 理论 题库 所 独 有 的 ,这 提高 了 题库 参数 的 完备 性 ,也 提高 了 题库 管理 的 可 控 
性 ,为 拓宽 题库 功能 提供 了 有 利 条 件 。 题 目 技术 参数 的 准确 性 也 是 题库 建设 质量 的 重要 条 
件 。 在 经 典 测验 理论 的 题库 建设 中 , 建 库 者 力求 各 题目 参数 的 准确 性 。 但 是 ,经 典 测验 理论 
题目 参数 的 估计 严重 依赖 于 样本 。 在 大 型 题库 建设 中 要 想 自始至终 都 使 用 一 个 稳定 的 \ 足 
够 大 的 群体 作 试 测 样本 实际 上 是 很 难 做 到 的 ,这 给 经 典 测验 理论 维持 参数 的 准确 性 带 来 了 
困难 。 然 而 ,在 项 目 反 应 理论 中 .由 于 题目 参数 估计 有 跨 群体 不 变性 和 潜在 特质 参数 估计 有 
可 选择 性 ,即使 来 自 不 同 群体 施 测 的 题目 参数 也 可 以 用 参数 等 值 技术 将 它们 统一 于 同一 个 
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量 纲 之 中 ,因而 这 样 就 能 保证 题库 参数 的 准确 性 。 

第 二 , 常 模 参 照 测验 的 编制 。 测 验 编制 的 一 个 重要 目标 就 是 要 使 测验 的 误差 达到 最 小 。 
如 果 事 先 规定 好 测验 的 最 大 允许 误差 ,那么 能 否 根 据 试题 的 已 知 参数 直接 组 拼 出 符合 要 求 
的 常 模 参 照 测验 的 试卷 呢 ? 这 在 经 典 测验 理论 中 是 难以 实现 的 。 然 而 ,项 目 反 应 理论 却 可 
以 实现 。 这 是 因为 ,在 项 目 反 应 理论 中 ,可 以 预先 规定 潜在 特质 量 纲 上 所 有 值 的 最 大 允许 测 
量 误差 ,然后 求 出 所 有 水 平 值 上 的 最 小 允许 信息 量 ,形成 一 个 信息 函数 ,项 目 反 应 理论 称 其 
为 目标 信息 函数 。 这 样 , 在 项 目 反应 理论 中 组 卷 的 过 程 就 变 成 了 选择 测验 试题 ,用 它 的 试题 
信息 函数 填充 目标 信息 函数 的 过 程 。 每 入 选 一 题 就 会 增加 一 题 的 信息 函数 ,直至 累加 之 和 
在 每 一 水 平 点 上 都 不 小 于 目标 信息 函数 为 止 。 用 这 样 的 常 模 参照 测验 的 试卷 去 施 测 , 则 可 
以 保证 各 水 平 测 值 的 误差 均 不 会 超过 规定 的 允许 误差 。 当 然 , 在 选择 试题 时 ,只 要 不 违背 其 
他 选 题 原 则 ,命题 者 应 尽量 选择 那些 信息 量 大 的 试题 参加 组 卷 。 这 样 , 用 较 少 的 试题 就 能 达 
到 不 超过 允许 误差 的 要 求 ,提高 了 测验 的 效率 。 

第 三 ,标准 参照 测验 的 编制 。 标 准 参照 测验 的 编制 有 两 条 原则 : 一 是 要 准确 地 划 定 合 
格 分 数 线 ; 二 是 要 尽量 降低 对 被 试 合格 与 和 否 的 误 判 率 。 项 目 反 应 理论 在 备 有 题库 的 条 件 下 
组 拼 标准 参照 性 测验 ,可 以 比较 理想 地 实现 这 两 条 原则 。 如 果 测 验 的 对 象 已 经 确定 ,那么 就 
可 以 按照 以 下 步骤 划 出 合格 分 数 线 。 

第 一 步 ,请 专家 就 整个 题库 针对 被 试 合格 要 求 确定 一 合格 率 。 例 如 ,如 果 我 们 认为 要 正 
确 作 答题 库 试题 的 60% 以 上 才 算 合格 ,那么 这 个 合格 率 就 确定 为 0.60。 这 个 值 实际 上 表示 
用 整个 题库 测试 时 真 分 数 的 合格 分 数 , 记 为 x.。 

第 二 步 ,用 下 式 求 出 专家 心目 中 的 潜在 特质 合格 分 数 0.。 

m =PO (10-12) 

在 公式 (10 -12) 中 ,如 果 x 已 知 ,所 有 题目 参数 也 已 知 ,那么 我 们 就 可 用 牛顿 一 拉夫 还 
迭代 法 (Newton-Raphson Procedure) 来 求解 0. 。 

第 三 步 ,对 于 用 题库 中 试题 编制 的 任何 试卷 ,只 要 根据 施 测 数据 估 出 被 试 的 潜在 特质 
0; ,就 可 将 其 与 9. 作 比 较 , 判 断 该 被 试 合格 与 否 。 也 可 以 就 组 成 试卷 的 道 试题 ,以 0. 为 已 
知 ,再 用 上 式 估 出 该 份 试卷 真 分 数 的 合格 分 数 ,直接 用 被 试 原始 分 数 与 它 作 比较 ,判断 被 试 
合格 与 否 。 编 制 者 还 可 以 通过 调整 试卷 的 试题 难度 ,来 将 真 分 数 的 合格 分 数 调 整 到 自己 认 
定 的 点 ,比方 说 我 国 习惯 使 用 的 0. 60( 即 百分制 的 60 分 )。 合 格 分 数 线 划 准 了 ,如 何 使 对 被 
试 的 合格 与 否 的 误 判 率 最 小 呢 ? 对 此 项 目 反 应 理论 有 几 种 选 题 策略 ,如 最 大 信息 函数 法 、 随 
机 法 、 经 典 法 和 循环 法 等 。 比 较 简单 的 就 是 最 大 信息 函数 法 , 即 选择 那些 在 合格 分 数 9 上 有 
最 大 信息 量 的 试题 组 成 试卷 。 可 以 事先 规定 好 在 9. 点 上 的 最 大 人 允许 误差 ,然后 累加 入 选 试 
题 在 9. 点 上 的 信息 量 ,一 旦 累加 的 信息 量 达 到 测验 标准 误差 规定 值 , 即 可 停止 选 题 。 在 0. 
点 有 较 小 的 测验 误差 ,就 会 使 得 处 于 9. 点 附近 的 被 试 误 判 的 概率 大 大 降低 。 

第 四 ,计算 机 化 自 适 应 测验 的 编制 。 计 算 机 化 测验 具有 施 测 情 境 标 准 化 、 计 分 快速 、 题 
目 保存 安全 性 高 . 施 测 时 较 不 易 受 时 空 限制 ,以 及 题目 呈现 方式 多 样 性 (如 声 、 光 和 速度 ) 等 
诸多 优点 。 一 般 地 ,题目 的 难度 应 该 贴近 受 试 者 的 能 力 , 才 会 有 最 佳 的 鉴别 力 ( 信 息 量 ), 因 
此 测验 的 施 测 最 好 是 伴随 着 受 试 者 的 能 力 而 弹性 调整 ,这 就 是 自 适 性 测验 (adaptive 
testing) 的 概念 。 例 如 ,能 力 高 者 尽 做 些 很 容易 的 题目 .显然 浪费 他 的 时 间 和 精力 ,其 至 减损 


口 


| 
LSS 第 十 章 项目 反应 理论 re le 


其 作答 意愿 ,也 就 无 法 有 效 估计 出 他 的 真正 能 力 。 反 之 ,让 能 力 低 者 做 很 多 高 难度 的 题目 ， 
也 是 浪费 时 间 , 其 至 造成 不 必要 的 挫折 。 计 算 机 化 自 适应 测验 (Computerized Adaptive 
Testing,，CAT) 的 优化 ,就 是 视 受 试 者 的 答题 情况 .弹性 调整 下 一 题 的 难度 。 在 受 试 者 答题 
之 后 ,立即 估计 他 的 能 力 。 如 果 该 题 答 错 (表示 他 的 能 力 可 能 低 于 该 题 的 难度 ) ,那么 下 一 题 
就 出 现 更 易 的 题目 。 反 之 ,如 果 答 对 (表示 他 的 能 力 可 能 高 于 该 题 的 难度 ) ,那么 下 一 题 就 出 
现 更 难 的 题目 。 在 实际 测量 中 达到 这 样 的 境界 ,就 必须 依赖 计算 机 ,也 就 是 将 计算 机 和 项 目 
反应 理论 相 结合 ,成 为 计算 机 化 自 适 性 测验 。 

在 进行 CAT 时 ,首先 要 有 题库 , 且 题 库 内 的 每 道 题目 都 要 经 过 数 百 位 受 试 者 的 预 试 , 然 
后 利用 合适 的 IRT 数学 模型 (如 Rasch 模型 ) 来 估计 题目 的 参数 。 当 考生 在 计算 机 上 作答 
一 题 后 (通常 是 选择 题 ,以 利于 在 线 及 时 计 分 ) ,计算 机 立即 估算 出 他 的 能 力 ( 估 计 方 法 可 以 
是 最 大 概 似 估计 , 例 见 表 10 - 3) ,接着 从 题库 中 找 一 道 最 适当 的 题目 (通常 是 难度 最 接近 其 
能 力 的 题目 ) ,考生 作答 完 此 题 后 ,又 立即 重新 估计 其 能 力 ,接着 挑选 下 一 道 题 。 这 个 过 程 循 
环 多 次 后 ,对 于 考生 能 力 的 估计 就 会 越 来 越 准确 。 达 到 某 一 既定 的 准确 度 或 既定 的 测验 长 
度 后 ,CAT 就 结束 了 。 采 用 这 种 自 适应 的 做 法 ,通常 只 要 一 半 的 题 长 ,就 可 以 达到 一 般 纸 笔 
测验 的 信 度 。 目 前 ,有 些 大 型 考试 已 经 采用 了 CAT, 如 TOEFL.GRE 等 。 

在 CAT 中 ,每 位 受 试 者 作答 的 题目 可 能 并 不 一 样 ,但 是 其 分 数 仍然 可 以 进行 比较 ,这 就 
必须 依赖 项 目 反应 理论 的 测验 等 值 技术 。 即 便 某 位 受 试 者 作答 的 题目 较 难 , 另 一 位 受 试 者 
作答 的 题目 较 易 , 他 们 两 人 的 分 数 也 仍然 可 以 比较 。 有 了 CAT, 考 生 可 以 选择 自己 便利 的 
时 间 和 地 点 接受 考试 ,不 必 * 千 人 一 卷 " 统 一 时 间 、 统 一 地 点 进行 考试 。 不 过 ,CAT 的 实施 ， 
必须 有 良好 的 题库 作 基础 。 如 果 题 库 内 的 题目 数量 不 多 ,那么 恐怕 会 被 一 些 有 心 人 士 记 住 
而 曝光 。 目 前 ,国内 的 考试 制度 要 求 考试 后 立即 公布 考题 和 答案 ,除非 这 种 做 法 能 够 改变 
(TOEFL, GRE 等 考试 并 不 立即 公布 考题 和 答案 ) ,否则 题目 无 法 重复 使 用 ,而 题库 又 不 可 
能 非常 庞大 ,CAT 就 室 碍 难 行 。 

第 五 ,项 目 功能 差异 的 侦查 。 项 目 功能 差异 (Differential Item Functioning,DIF) 分 析 ， 
现今 几乎 是 试题 分 析 的 标准 作业 程序 之 一 。 所 谓 DIF , 指 的 是 试题 对 不 同 的 团体 有 着 不 同 
的 功能 ,也 就 是 测 到 不 同 的 潜在 变量 。DIF 的 另 一 种 定义 是 : 虽然 来 自 不 同 的 团体 (如 性 别 、 
肤色 .地 区 ) ,但 是 能 力 水 平 相同 的 受 试 者 , 却 有 着 不 同 的 答对 概率 。 理 论 上 ,能 力 相同 ,答对 
的 概率 就 应 该 相同 。 如 果 不 同 ,那么 就 表示 这 个 题目 对 于 不 同 团体 的 受 试 者 ,代表 着 不 同 的 
内 涵 , 也 就 意味 着 对 于 不 同 团体 其 有 着 不 同 的 功能 ,就 会 出 现 DIF。 以 下 是 一 个 DIF 题目 。 
在 推理 测验 中 ,有 这 样 的 一 道 题目 : 

“草莓 : 红色 ”相当 于 下 列 哪 一 种 关系 ? 

CA) “BEF: 成 熟 ”(B)“ 皮 革 : 棕色 ” (C)“ 草 地 : 绿色 ” D) “WE: 圆 形 ” 
CE) “Fre: 黄色 ” 

正确 答案 是 下 。 相 对 于 白人 的 学 生 而 言 ,西班牙 裔 的 学 生 有 着 异常 低 的 答对 率 。 这 是 
因为 ,西班牙 裔 的 学 生 通 常 看 到 的 柠檬 是 绿色 的 ,很 少 是 黄色 的 ,因此 他 们 倾向 于 选 C。 但 
是 ,白人 学 生 看 到 的 柠檬 大 都 是 黄色 的 ,因此 容易 选 。 这 个 题目 的 原意 是 测 推理 能 力 , 不 
是 测 生活 环境 。 但 是 ,这 个 题目 显然 对 西班牙 裔 的 学 生 而 言 , 有 失 公平 。 

GRE 的 逻辑 分 测验 算是 DIF 的 另 一 例子 。 因 为 是 英文 命题 来 考 逻 辑 推理 ,所 以 对 于 
中 国人 而 言 , 常 苦于 英文 能 力 不 足 ,无 法 理解 题 意 。 这 导致 ,相对 于 美国 考生 ,中 国人 的 逮 
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辑 推理 分 数 偏 低 。 这 难道 是 中 国人 的 逻辑 推理 能 力 不 如 美国 人 ? 显然 ,这 是 因为 英文 命 
题 所 致 ,导致 很 多 题目 对 于 不 同 国家 考生 而 言 具 有 DIF。 目 前 大 型 测验 ,尤其 是 高 风险 
(high-stakes) 的 测验 (如 入 学 测验 、 证 照 考 试 等 ) ,都 会 详细 地 进行 DIF 分析, 以 确保 测验 对 
不 同 团体 的 考生 都 是 公平 的 。 

在 经 典 测验 理论 中 ,通常 用 答对 率 来 表示 题目 难度 。 如 果 发 现 男生 在 某 题 的 答对 率 是 
30% ,女生 答对 率 是 50% ,那么 这 道 题目 有 性 别 的 DIF 吗 ? 显然 ,答案 是 不 确定 的 。 说 不 定 
女生 的 能 力 本 来 就 较 强 ,因此 答对 率 较 高 是 合理 的 。 经 典 测验 理论 的 试题 分 析 不 容易 进行 
DIF 的 侦查 ,这 是 因为 题目 的 难度 (答对 率 ) 和 受 试 者 的 能 力 互 为 定义 ,所 以 不 能 直接 用 答对 
率 来 侦查 是 否 有 DIF。 然 而 ,在 项 目 反 应 理论 中 ,DIF 的 侦查 就 变 得 容易 得 多 ,这 是 因为 题 
目的 难度 和 受 试 者 的 能 力 并 没有 互 为 定义 。 通 常 , 在 项 目 反 应 理论 中 ,只 要 比 对 题目 对 不 同 
团体 的 受 试 者 是 否 有 着 不 同 的 参数 ,就 可 判定 该 题 是 否 有 DIF, 

在 能 力 测验 中 ,DIF 分 析 的 重点 常用 于 侦查 不 同 种 族 、 性 别 、 居 住地 区 、 社 会 地 位 的 团体 
间 是 否 有 DIF。 其 实 , 其 他 人 口 学 变量 也 可 以 进行 DIF 的 侦查 。 例 如 ,很 多 的 测验 被 翻译 为 
数 种 语言 ,以 适应 当地 需要 。 我 们 可 以 将 国家 、 文 化 或 语言 当 作 人 口 学 变量 来 进行 DIF 的 侦 
查 , 以 确保 不 同 语言 版 本 的 测验 所 得 到 的 分 数 是 可 以 比较 的 。 同 理 , 有 些 测验 在 不 同年 度 重 
复 施 测 ( 如 追踪 研究 ), 此 时 ,为 了 确保 不 同年 度 的 分 数 可 以 进行 比较 ,可 以 针对 ”年 度 " 进 行 
DIF 的 侦查 。 

第 六 ,测验 分 数 的 等 值 。 在 传统 的 测验 实施 里 ,每 位 受 试 者 都 要 接受 同一 份 测验 ,和 否 
则 分 数 无 法 比较 。 但 是 ,有 的 时 候 ,这 种 做 法 却 根本 行 不 通 。 例 如 ,SARS 和 HINI1 流行 
时 ,大 型 集中 式 的 考试 很 危险 。 又 如 ,要 了 解 人 们 的 成 长 变化 ,必须 计算 前 后 测 的 分 数 改 
变 ; 如 果 用 同一 份 卷子 施 测 两 次 ,那么 恶 怕 会 有 记忆 的 干扰 ;如 果 用 不 同 的 卷子 施 测 两 次 ， 
那么 分 数 又 难以 比较 。 再 如 , 当 受 试 者 的 分 数 有 缺失 值 ( 漏 答 部 分 题目 ) 时 ,将 使 得 分 数 的 
比较 变 得 更 为 困难 。 如 果 测 验 的 施 测 很 有 弹性 ,那么 就 可 以 解决 很 多 实际 中 的 困境 。 例 
如 ,接受 不 同 测验 的 受 试 者 ,其 分 数 仍然 可 以 比较 ;前 后 测 使 用 不 同 的 卷子 ,其 分 数 仍然 可 
以 相 减 ;即便 有 漏 答 ,其 分 数 也 仍然 可 以 比较 。 如 此 一 来 ,不 必 将 所 有 的 考生 集中 在 同一 
时 段 接受 同一 份 测验 ,前 后 测 的 问题 也 就 可 以 圆满 解决 了 ,即使 漏 答题 目 也 没关系 。 可 
惜 ,经 典 测验 理论 在 这 些 议题 上 几乎 使 不 上 力 。 

然而 ,项 目 反 应 理论 却 可 以 有 效 地 解决 上 述 这 些 困 境 。 基 于 项 目 反 应 理论 ,不 同 的 受 试 
者 可 以 作答 不 同 的 题目 ,只 要 依照 他 们 的 作答 反应 ,将 其 能 力 水 平 界定 出 来 ,就 可 以 了 。 照 
此 ,前 后 测 可 以 用 不 同 的 题目 ,分 数 仍 可 以 进行 比较 ,即使 不 同 受 试 者 作答 不 同 的 题 数 ( 如 有 
人 漏 答 ) 也 没关系 ,一 切 变 得 非常 有 弹性 。 其 原因 在 于 ,要 比较 作答 不 同 卷子 的 受 试 者 的 能 
力 水 平 ,只 要 将 他 们 的 分 数 加 以 等 值 (equating) ,就 可 以 了 ! 这 个 等 值 的 工作 在 项 目 反 应 理 
论 中 ,实际 上 就 变 成 了 如 何 将 参数 进行 链接 (linking) ,也 就 是 怎样 将 不 同 测验 的 题目 参数 链 
接 起 来 , 置 于 同一 个 量 纲 上 ,形成 一 个 大 的 题库 。 有 了 这 种 链接 ,测验 就 变 得 相当 有 弹性 。 
上 述 所 讲 的 CAT 就 是 每 个 受 试 者 做 不 尽 相同 的 测验 ,但 分 数 仍然 可 以 进行 比较 。 如 此 看 
来 ,对 测验 分 数 进行 等 值 ,将 大 大 增加 测验 分 数 的 可 比 性 。 


基于 测验 的 原始 总 分 的 劣 性 ,本 章 曾 述 了 测验 数据 的 分 析 单 位 ,由 原先 经 典 测验 理论 中 
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的 测验 的 原始 总 分 变 为 项 目 反 应 理论 中 的 测验 的 项 目 反 应 的 科学 性 和 合理 性 。 实 际 上 , 考 
察 测验 的 项 目 反 应 比 考察 测验 的 原始 总 分 更 加 符合 现实 ,更 加 符合 数据 分 析 的 真正 需求 ,这 
便 诞 生 了 项 目 反 应 理论 (又 译 为 题目 作答 理论 ) ,有 别 于 经 典 测验 理论 。 

进行 项 目 反 应 理论 分 析 首 先 需 要 定义 IRT 数学 模型 ,然后 对 数据 进行 参数 估计 ,最 后 
根据 参数 估计 的 结果 分 析 模 型 与 数据 拟 合 。 项 目 反应 理论 参数 估计 ,包括 能 力 参 数 估计 和 
项 目 参数 估计 。 本 章 最 后 还 介绍 了 项 目 反应 理论 的 若干 应 用 ,包括 对 题库 建设 的 贡献 、. 常 模 
参照 测验 的 编制 ,标准 参照 测验 的 编制 ,计算 机 化 自 适 应 测验 的 编制 .项目 功 能 差异 的 侦查 
及 测验 分 数 的 等 值 。 

本 章 的 重点 是 掌握 项 目 反应 理论 的 分 析 过 程 ,难点 是 理解 项 目 反应 理论 常见 的 数学 模 
型 。 本 章 的 中 心 概念 是 “参数 估计 ”。 


一 、 选 择 题 (不 定 项 选择 题 ,至 少 有 一 个 选项 是 正确 的 ) 
1. 计算 机 化 自 适应 测验 (CAT) 设 计 的 主要 理论 依据 是 ( ) 


A. 概 化 理论 B. 经 典 测验 理论 
C. 层面 理论 D. 项 目 反 应 理论 

2. 在 项 目 反 应 理论 三 参数 Logistic BORER AAR HPO) =e, + stay , 表 

示 项 目 猜 测度 参数 的 符号 是 ( ) 

A. ai B. b: C. wi D. 6; 

3. 下 列 关于 计算 机 化 自 适应 测验 (CAT) 的 表述 ,正确 的 是 ( ) 
A. 被 试 可 以 自选 测量 模型 
B. 被 试 需要 花费 大 量 时 间 
C. 被 试 可 以 自选 试题 
D. 被 试 接受 的 试题 会 有 所 不 同 

4. IRT 多 级 记分 模型 包括 ( ) 
A. 2PLM B. 3PLM C. GRM D. GPCM 

5. 项 目 功能 差异 是 指 ( ) 
A. DIF B. CAT C. ICF D. TEE 

6. 项 目 反 应 理论 分 析 模 型 与 数据 拟 合 ,进行 残 差分 析 重 在 检验 ( ) 
A. person fit B. item fit C. error fit D. score fit 

7. XE IRT 数学 模型 中 ,出 现 * 天 花 板 效 应 ”的 是 ( ) 
A. 1PLM B. 2PLM C. 3PLM D. 4PLM 

8. 项 目 反 应 理论 的 第 一 个 数学 模型 的 提出 者 是 ( ) 
A. 洛 德 B. 伯 思 鲍 姆 C. 拉 希 D. 塞 姆 吉 玛 

9. 目前 ,有 相当 多 的 软件 可 以 进行 项 目 反 应 理论 的 参数 估计 ,包括 ( ) 
A. Bilog B. Multilog C. Parscale D. ANOTE 

10. 在 项 目 反 应 理论 中 ,项 目 反 应 是 ( ) 


A. 类 别 数据 B. 等 距 数据 C. 等 比 数据 D. 连续 数据 
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项 目 反 应 理论 属于 
A. 随机 抽样 理论 B. 量 表 化 模型 理论 
C. 层面 理论 D. 经 典 测验 理论 

二 、 简 答题 


1. 简 述 项 目 反应 理论 的 优越 性 与 局 限 性 。 
2. 解释 项 目 反应 理论 4PLM 各 项 目 参数 的 意义 及 内 涵 。 
3. 简 述 项 目 反应 理论 的 若干 应 用 。 
、 分 析 题 
1. 某 份 测验 有 六 道 题 ,其 项 目 参数 如 表 10 -4 所 示 , 据 此 回答 以 下 问题 。 


表 10-4 某 份 测验 六 道 题 的 项 目 参数 


item a bi Ci 
1 1. 80 1.00 0. 00 
2 0.70 1,00 0. 00 
3 1. 80 1.00 0.25 
4 1. 20 —0. 50 0. 20 
5 1.20 0.50 0. 00 
6 0.50 0.00 0. 10 


(1) 在 表 10-4 中 , 哪 道 题目 最 容易 ? 

(2) FER 10 -4 中 , 哪 道 题目 区 分 能 力 最 差 ? 

(3) 对 于 表 10 - 4 的 每 一 道 题 目 , 分 别 计算 当 被 试 能 力 0 王 一 3, 一 2, 一 1,0,1,2,3 时 的 
Pe 

(4) 当 被 试 能 力 0; =0 时 . 表 10 — 4 的 哪 道 题目 有 最 大 的 概率 被 正确 作答 ? 其 错误 作答 
概率 有 多 大 ? 
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Bm 概 化 理论 


鉴于 经 典 测验 理论 存在 的 不 足 ,20 世纪 60 年 代 在 克 龙 巴 赫 (L. J. Cronbach) 等 学 者 的 
研究 下 , 概 化 理论 应 运 而 生 。1972 年 , 克 龙 巴赫 等 人 (Cronbach, Gleser, Nanda &- 
Rajartnam) 出 版 了 第 一 部 关于 概 化 理论 权威 专著 (行为 测量 的 可 靠 性 : 用 于 测验 分 数 和 剖面 
图 的 概 化 理论 》。 概 化 理论 诞生 之 初 并 没有 得 到 迅速 推广 ,直到 20 世纪 80 年 代 后 才 逐 步 发 
展 起 来 ,并 与 经 典 测验 理论 和 项 目 反 应 理论 形成 三 足 鼎 立 的 局 面 。 

概 化 理论 是 现代 心理 测验 理论 之 一 ,是 对 经 典 测验 理论 的 扬弃 ,广泛 应 用 于 各 种 心理 测 
量 的 实践 中 。 概 化 理论 可 应 用 于 自动 评分 考试 . 认 知 评估 、 情 绪 测 量 、 体 育 测试 、 人 格 测验 及 
评价 者 "漂移 ”rater drift) 分 析 等 各 个 方面 。 


第 一 节 ” 概 化 理论 概述 


概 化 理论 是 关于 行为 测量 可 靠 性 (dependability) 的 理论 。 克 龙 巴 赫 等 人 于 1972 年 构建 
了 可 靠 性 的 概念 : 来 自 一 次 测验 或 其 他 测量 的 用 作 决 策 的 分 数 ,仅仅 是 许多 分 数 的 一 个 ,这 
些 分 数 可 能 起 着 相同 的 作用 ,决策 者 从 来 不 对 在 特定 的 刺激 物 、 问 题 ,测验 者 、 测 验 时 间 等 条 
件 下 产生 的 (这 些 ) 分 数 感 兴趣 ,因为 一 些 测验 条 件 容易 改变 ,而 用 于 决策 的 理想 分 数 是 包含 
所 有 条 件 下 获得 的 观察 分 数 。 

根据 克 龙 巴 赫 等 人 构建 的 可 靠 性 概念 ,可 靠 性 可 定义 为 : 将 一 次 测量 (如 心理 测验 , 行 
为 观察 .民意 调查 等 ) 所 得 的 观察 分 数 概 化 到 包含 所 有 可 能 条 件 下 平均 分 数 的 精确 度 ,这 些 
可 能 的 条 件 是 测验 者 愿意 接受 的 。 在 概 化 理论 中 , 概 化 意 指 “ 拓 广 "或 “推广 ”。 可 靠 性 概念 
的 前 提 假 设 是 ,人 的 知识 态度、 技能 等 都 处 于 稳定 状态 ,仅仅 是 不 同 来 源 的 误差 造成 了 个 体 
之 间 的 分 数 差 异 。 

在 某 个 场合 实施 某 个 测验 所 得 的 分 数 不 一 定 完 全 可 靠 , 这 是 因为 这 种 分 数 不 能 代表 在 
所 有 场合 实施 所 有 测验 所 得 的 分 数 。 一 个 人 的 分 数 通常 会 因 不 同 场合 .不同 测验 .不 同人 实 
施 而 有 所 不 同 。 哪 个 是 最 重要 的 误差 来 源 呢 ? 经 典 测验 理论 认为 ,一 次 分 析 仅 能 估计 一 个 
误差 来 源 。 例 如 , 重 测 信 度 只 能 估计 不 同 场合 或 时 间 的 分 数 变化 程度 等 。 相 比 之 下 , 概 化 理 
论 的 优势 是 ,能 在 一 次 分 析 中 估计 多 个 误差 来 源 。 与 斯 皮尔 曼 一 布朗 (Spearman-Brown) 校 
正 公 式 用 于 预测 测验 长 短 和 信和 度 一 样 , 概 化 理论 能 让 决策 者 决定 需要 多 少 个 场合 、 多 少 个 测 
验 、 多 少 个 评价 者 才能 获得 可 靠 的 分 数 。 在 分 析 过 程 中 , 概 化 理论 提供 了 两 个 指标 来 反映 可 
靠 性 水 平 , 即 概 化 系数 (generalizability coefficient) (G 系数 ) 和 可 靠 性 指数 (index of 
dependability) ($ 指数 ) ,它们 与 经 典 测验 理论 的 信 度 系数 (reliability coefficient) MAW. 
概 化 理论 允许 决策 者 根据 不 同 的 需要 来 考察 分 数 的 可 靠 性 ,其 中 一 种 需要 是 关注 个 体 的 相 
对 水 平 ,如 张 三 的 分 数 比 95%% 的 同龄 人 高 。 但 是 ,如 果 决 策 者 不 管 张 三 同龄 人 表现 如 何 , 只 
想 知 道 他 的 绝对 水 平 ,那么 概 化 理论 也 能 提供 这 种 分 数 的 可 靠 性 。 概 论 理论 相对 决策 关注 
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个 体 的 相对 水 平 , 其 可 靠 性 可 用 概 化 系数 来 表示 ,而 概 化 理论 绝对 决策 关注 个 体 的 绝对 水 
平 ,其 可 靠 性 可 用 可 靠 性 指数 来 表示 。 

概 化 理论 一 个 核心 的 基本 概念 是 测量 的 情境 关系 (context of measurement situation) 。 
测量 的 情境 关系 包括 测量 目标 和 测量 侧面 两 部 分 。 测 量 目标 是 研究 者 欲 测 量 的 对 象 , 测 
量 侧面 是 影响 测量 目标 的 因素 。 测 量 目标 如 同 实 验 设计 的 因 变 量 ,测量 侧面 如 同 实验 设 
计 的 自 变量 。 概 化 理论 可 用 于 分 析 多 侧面 测量 误差 (mnultifaceted measurement error) 。 根 
据 测 量 的 情境 关系 ,在 测量 目标 确定 的 条 件 下 ,测量 侧面 可 以 来 自 多 个 方面 。 例 如 ,学 生 
评价 教师 教学 水 平 ,测量 目标 是 教师 教学 水 平 ,测量 侧面 可 以 是 学 生 、 班 级 专业 、 课 程 、 题 
目 以 及 教学 水 平 维度 (如 教学 态度 、 教 学 内 容 、 教 学 方法 ,教学 效果 等 ) ,等 等 。 针 对 某 个 测 
量 目标 , 若 测量 侧面 仅 一 个 , 则 称 为 单 侧面 设计 ,如 pXi 设 计 。 对 于 pXi 设 计 , 若 i 为 随机 
侧面 , 则 可 称 为 单 侧面 随机 设计 。 相 应 地 , 若 i 为 固定 侧面 , 则 可 称 为 单 侧面 固定 设计 。 
针对 某 个 测量 目标 , 若 测量 侧面 超过 一 个 , 则 称 为 多 侧面 设计 ,其 设计 类 型 既 可 以 是 交叉 、 
嵌 套 ,也 可 以 是 混合 ( 既 有 交叉 也 有 赃 套 ) 。 


一 、 一 个 侧面 的 全 城 


实际 测量 活动 中 可 能 存在 着 的 测量 侧面 的 全 体 ,就 构成 了 测量 侧面 的 全 域 , 称 为 可 允 观 
测 全 域 (universe of admissible observations)。 在 概 化 理论 中 ,一 次 测量 仅仅 是 从 可 允 观 测 
全 域 中 的 一 次 抽样 ,决策 者 为 了 决策 目的 把 抽样 得 到 的 观测 分 数 往往 看 作 是 可 交换 的 。 一 
个 侧面 的 全 域 只 允许 有 一 个 测量 误差 来 源 , 那 也 就 是 说 , 仅 有 一 个 侧面 。 如 果 一 个 决策 者 想 
要 从 一 套 测 验 的 题目 概 化 到 一 个 更 大 测验 的 题目 ,那么 题目 是 测量 侧面 ,题目 全 域 被 定义 为 
所 有 可 允 观 测 题目 。 如 果 一 个 决策 者 想 要 从 一 套 测 验 的 子 测验 概 化 到 一 个 更 大 测验 的 子 测 
验 ,那么 子 测验 是 测量 侧面 , 子 测验 全 域 被 定义 为 所 有 可 允 观 测 子 测验 (例如 ,过 去 15 年 所 
有 所 开发 的 子 测验 )。 如 果 一 个 决策 者 想 要 从 一 个 场合 的 表现 概 化 到 更 多 场合 的 表现 ,那么 
场合 是 测量 侧面 ,场合 全 域 被 定义 为 所 有 可 允 观 测 场合 (例如 ,三 个 月 内 进行 测试 的 每 一 
天 )。 误 差 出 现在 决策 者 将 一 次 测验 (或 一 个 行为 样本 ) 概 化 到 代表 全 部 测验 的 全 域 ( 或 全 部 
行为 的 全 域 ) 中 。 

我 们 设想 一 个 学 业 成 就 测验 ,这 个 测验 包含 了 一 些 由 4 个 选择 项 组 成 的 多 重 选择 题 
(multiple-choice items) ,其 记分 规则 相对 简单 ,只 有 对 或 错 (1 或 0) 两 种 。 概 化 是 基于 题目 
的 抽样 去 估计 学 生 的 学 业 成 就 。 但 是 , 概 化 并 不 是 建立 在 题目 样本 之 上 ,而 是 建立 在 题目 全 
ZE. 

如 果 全 域 上 的 题目 难度 相等 ,个 人 分 数 在 题目 上 近似 相等 ,那么 样本 中 任何 题目 的 得 分 
可 以 拓 广 到 所 有 的 题目 。 然 而 , 当 题 目 难度 变化 时 ,个 人 的 分 数 将 依赖 于 测验 中 题目 的 抽 
样 。 这 时 ,从 样本 概 化 到 全 域 是 危险 的 。 那 么 ,不 同 的 题目 表示 一 个 潜在 的 误差 因素 ,题目 
就 构成 了 成 就 测验 的 一 个 测量 侧面 。 如 果 题 目 是 唯一 需要 考虑 的 侧面 ,那么 可 允 观 测 题 目 
就 构成 了 一 个 侧面 的 全 域 。 当 然 .决策 者 必须 决定 哪些 题目 是 可 允 观 测 的 。 

例如 ,使 用 一 个 五 年 级 的 科学 成 就 测验 (CTBS) (Shavelson & Webb, 1991,P. 5) 对 20 
个 被 试 进行 测试 ,这 个 测验 包含 了 8 道 四 选 一 的 题目 ,记分 为 二 级 记分 (0/1) ,20 个 被 试 在 8 
道 题目 上 的 分 数 如 表 11 -1 所 示 。 
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表 11-1 CTBS 科学 成 就 测验 被 试 在 题目 上 的 分 数 (pXi 设 计 ) 


题 目 
被 试 被 试 平均 分 
i 2 3 4 5 6 7 8 
1 0 1 0 0 0 1 0 1 0. 375 
2 1 0 1 0 0 0 0 1 0. 375 
3 1 1 1 0 0 0 0 0 0. 375 
4 1 1 0 0 1 0 0 1 0. 500 
5 1 1 1 1 0 0 0 1 0. 625 
6 1 1 1 1 1 1 $ 1 1. 000 
7 1 0 1 0 0 1 0 0. 500 
8 0 1 0 0 0 af 1 0. 500 
9 1 0 0 0 0 1 1 1 0. 500 
10 0 0 0 | 1 0 0 0.375 
11 0 0 0 1 í 1 0 0 0.375 
12 0 0 1 0 0 0 0 0 0. 125 
13 1 1 1 1 1 1 1 1 1. 000 
14 0 0 0 0 0 1 1 1 0.375 
15 0 0 1 0 0 0 0 0. 250 
16 1 1 1 0 0 1 0 0 0. 500 
17 0 1 0 0 0 0 0 0 0.125 
18 1 0 0 0 0 1 1 1 0. 500 
19 0 0 0 0 0 1 1 0 0. 250 
20 0 1 0 0 0 0 0 0 0.125 


题目 平均 分 0.55 0.50 0.50 0. 20 0.25 0.55 0.40 0.55 0.4375 


# 11 -1 表示 CTBS 科学 成 就 测验 20 个 被 试 在 8 道 题目 上 的 分 数 ,这 些 题目 主要 考察 
了 对 事实 信息 进行 回忆 、 对 科学 概念 进行 推理 .对 数据 结果 进行 解释 、 对 实验 情景 进行 分 析 ， 
等 等 。 我 们 使 用 这 个 测验 的 被 试 平均 分 作为 被 试 所 得 的 分 数 。 然 而 ,在 实际 中 ,我 们 更 习惯 
于 使 用 总 分 而 不 是 平均 分 来 表示 被 试 的 得 分 。 为 方便 起 见 ,本 章 我 们 都 使 用 观察 分 数 的 平 
均 分 作为 总 的 “观测 分 数 ”, 其 理由 是 任何 由 平均 分 获得 的 结果 容易 转换 成 对 应 的 总 分 ,基于 
平均 分 的 公式 不 会 对 总 体 信息 造成 任何 损失 。 

成 就 测验 结果 的 使 用 者 ,如 学 校 管理 者 、 父 母 .政策 制定 者 或 者 一 般 的 公众 等 ,可 能 对 科 
学 测验 的 特定 问题 漠不关心 。 他 们 也 许 有 可 能 乐意 接受 另 一 套 题目 ,只 要 这 些 题目 包含 相 
似 的 科学 事实 、 推 断 和 解释 ,或 者 包含 相同 事实 的 不 同 例子 ,等 等 。 这 也 就 是 说 ,成 就 测验 结 
果 的 使 用 者 对 学 生 的 一 般 科学 成 就 感 兴趣 ,对 学 生 任何 特定 的 题目 并 不 太 感 兴趣 ,只 要 这 些 
题目 发 挥 着 相同 的 作用 ,就 无 所 谓 指定 任何 特定 的 题目 。 如 此 看 来 ,题目 是 随机 的 ,是 可 以 
改变 的 。 

在 CTBS 科学 成 就 测验 这 个 例子 中 ,所 概 化 的 成 就 是 由 被 试 平 均 分 表示 出 来 的 ,而 这 些 
分 数 要 求 在 一 个 较 大 范围 题目 上 获得 。 然 而 ,题目 对 于 不 同 的 学 生 具有 不 同 的 难度 ,所 以 学 
生 在 一 个 题目 样本 上 获得 高 分 .并 不 表示 在 另 一 个 题目 样本 上 就 能 获得 高 分 。 因 此 ,测验 题 
目 是 测量 的 一 个 侧面 ,是 一 个 可 能 导致 概 化 分 析 产 生 误差 的 潜在 因素 。 
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但 是 ,题目 侧面 由 许多 题目 组 成 .测验 使 用 者 把 这 些 题目 统称 为 科学 成 就 测验 题目 ,这 
些 题 目 就 组 成 了 测验 题目 的 全 域 。 如 果 我 们 进一步 分 析 表 11 - 1 的 CTBS 科学 成 就 测验 的 
全 域 ,那么 就 不 难 发 现 以 下 两 点 : 一 是 不 仅仅 只 有 八 列 能 包含 所 有 可 允 观 测 题目 ,题目 数量 
其 实 可 以 更 多 ,其 至 无 穷 大 ;二 是 被 试 平均 分 是 对 所 有 题目 求 平均 而 得 到 的 , 即 表 11 - 1 最 
后 一 列 的 被 试 平均 分 ,实际 上 ,这 个 平均 分 可 看 作 全 域 分 数 (universe score) ,类 似 于 经 典 测 
验 理论 的 真 分 数 (true score), 

一 般 地 ,测验 使 用 者 都 想 获 知 每 个 被 试 的 全 域 分 数 。 但 是 ,获知 每 个 被 试 的 全 域 分 数 的 
理想 数据 通常 是 未 知 的 ,因此 我 们 就 不 得 不 想 知道 ,从 一 套 特定 题目 的 分 数 概 化 到 所 有 可 允 
观测 题目 的 分 数 有 多 准确 。 为 此 ,我 们 不 得 不 考察 对 题目 的 分 数 进行 概 化 的 可 靠 性 ,并 分 析 
不 同 变 异 的 来 源 。 

对 于 上 述 CTBS 科学 成 就 测验 的 例子 ,其 概 化 理论 研究 设计 属于 单 侧面 随机 设计 (pxi 
设计 )。 对 于 这 个 pXi 设 计 , 有 以 下 4 个 变异 来 源 。 

第 一 个 变异 来 源 ,是 被 试 成 就 之 间 的 系统 变异 。 我 们 把 这 个 变异 称 为 测量 目标 的 变异 
(在 社会 科学 测量 中 通常 是 人 ) ,反映 出 被 试 知识 技能 等 的 差异 ,被 认为 是 全 域 分 数 的 变异 。 

第 二 个 变异 来 源 ,是 测验 题目 难度 之 间 的 差异 。 一 些 题 目 较 易 , 一 些 题目 较 难 , 男 有 一 
些 题目 难度 中 等 。 如 果 题 目 在 难度 上 的 差异 达到 了 一 定 的 程度 ,那么 从 题目 样本 概 化 到 题 
目 全 域 就 有 可 能 变 得 不 太 准确 。 

第 三 个 变异 来 源 ,是 被 试 与 题目 的 交互 作用 。 这 个 变异 可 能 与 被 试 的 教育 背景 或 个 人 
经 历 有 关 。 例 如 ,一 道 关 于 仓鼠 的 题目 对 于 一 个 曾经 养育 过 它们 的 被 试 来 说 , 比 起 其 他 被 试 
则 是 更 容易 的 。 不 同 的 被 试 在 不 同 的 题目 上 的 差异 形成 了 人 与 题目 的 交互 作用 。 被 试 的 过 
去 经 历 与 题目 之 间 形 成 的 经 验 也 有 助 于 增 大 变异 ,这 增加 了 将 每 个 被 试 从 8 个 题目 的 分 数 
概 化 到 全 域 上 所 有 题目 的 分 数 的 难度 。 

第 四 个 变异 来 源 , 是 残 差 ,包括 一 些 随机 因素 (如 一 个 学 生 短暂 的 漫不经心 的 注意 ) 或 一 些 
系统 的 但 未 被 识别 的 变异 来 源 ( 如 不 同 的 学 生 在 不 同时 间 参 加 考试 等 ) , 残 差 用 *e” 来 表示 。 

总 之 ,对 于 表 11 -1 的 CTBS 科学 成 就 测验 的 例子 ,有 4 个 变异 来 源 ,可 以 表述 如 下 : D 
测量 目标 之 间 的 差异 ;@ 题目 难度 之 间 的 差异 ;@ 被 试 与 题目 的 交互 作用 ;@ 一 些 随机 的 
或 系统 的 但 未 被 识别 的 变异 。 

然而 ,第 三 个 变异 来 源 和 第 四 个 变异 来 源 不 能 被 分 解 。 这 是 因为 ,在 表 11 - 1 中 每 一 个 
单元 格 只 有 一 个 观测 分 数 , 我 们 不 知道 在 解释 了 前 两 个 变异 后 ,题目 分 数 之 间 的 差异 是 反映 
了 被 试 与 题目 的 交互 作用 (正如 方差 分 析 一 样 ) ,还 是 反映 了 一 些 随机 的 或 系统 的 但 未 被 识 
别 的 变异 。 因 此 ,我 们 把 第 三 个 变异 来 源 和 第 四 个 变异 来 源 归 在 一 起 ,用 pi,e 来 表示 。 

至 此 ,我 们 能 估计 出 三 种 类 型 变异 来 源 ,如 表 11 -2 所 示 。 


表 11-2 单 侧面 随机 设计 (pXi 设 计 ) 的 变异 来 源 (CTBS 科学 成 就 测验 例子 ) 


变异 来 源 变异 类 型 方差 分 量 
被 试 (p) 全 域 分 数 的 变异 (测量 目标 ) o 
MAC) 题目 难度 差异 对 所 有 被 试 造成 的 恒定 影响 (测量 侧面 ) 


pise 被 试 与 题目 的 交互 作用 ;一 些 随机 的 或 系统 的 但 未 被 识别 的 变异 oie 
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FER 11 -2 中 ,方差 分 量 是 中 .of 和 o5,., 这 些 方差 分 量 的 大 小 可 以 用 来 反映 变异 的 程 
度 。 对 单 侧面 随机 设计 (pxi 设计) 而 言 ,可 以 把 全 域 分 数 方差 分 量 与 其 他 的 方差 分 量 进行 
比较 ,以 便 用 于 后 续 的 分 析 与 解释 。 


二 、 两 个 侧面 的 金城 


社会 科学 测量 通常 是 复杂 的 ,包含 的 侧面 数 可 能 往往 超过 一 个 。 例 如 ,对 于 CTBS 科学 成 
就 测验 ,也 可 以 在 不 同 的 场合 (occasion) 对 被 试 施 测 不 同 的 题目 。 那 么 ,可 允 观 测 全 域 包 括 两 
个 : 题目 和 场合 。 也 就 是 说 ,可 允 观 测 全 域 被 定义 为 所 有 可 接受 的 在 任何 场合 都 能 够 实施 的 题 
目 。 于 是 ,对 于 这 样 的 CTBS 科学 成 就 测验 ,不 再 是 只 有 一 个 侧面 的 全 域 (题目 ) ,而 是 有 了 两 个 
侧面 的 全 域 (题目 和 场合 ) ,对 应 的 概 化 理论 研究 设计 不 再 是 pXi, 而 是 pXiXo。 

同 理 , 评 价 者 在 不 同 场合 评定 不 同 儿 童 的 某 种 行为 ,也 包含 了 两 个 侧面 的 全 域 , 即 评价 
者 和 场合 。 

由 一 个 特定 评价 者 对 不 同 儿童 某 种 行为 给 出 的 评定 ,可 看 作 是 多 个 评价 者 平均 后 给 出 的 。 
评价 者 对 儿童 某 种 行为 评定 的 不 一 致 性 越 大 , 概 化 到 全 域 就 越 危 险 。 因 此 ,评价 者 是 第 一 个 侧面 。 

另外 ,对 儿童 行为 进行 评定 的 重复 测量 在 研究 中 是 普遍 的 ,但 是 我 们 应 该 考虑 到 儿童 某 
种 行为 可 能 会 因 不 同 场合 而 发 生变 化 。 如 果 行 为 的 不 一 致 性 在 场合 之 间 达 到 一 定 程度 , 那 
么 从 一 个 行为 场合 概 化 到 所 有 行为 场合 则 是 危险 的 。 因 此 ,场合 便 是 第 二 个 侧面 。 

例如 ,1983 年 , 肯 德 尔 斯 克 (C. M. Kenderski) 发 表 了 一 篇 相关 论文 ,在 此 文中 提供 了 一 个 儿 
童 行为 观察 测量 的 实例 ,观察 9 岁 儿 童 在 课堂 上 解决 数学 问题 的 表现 , 即 这 些 儿 童 在 做 课堂 作 
业 过 程 中 的 交流 被 录像 。 评 价 者 通过 看 录像 带 来 评定 每 个 儿童 向 另外 儿童 寻求 帮助 的 次 数 。 
所 有 儿童 三 个 星期 内 在 不 同 的 两 个 场合 被 观察 。 相 同 的 两 个 评价 者 (rater) 通 过 看 录像 带 来 评 
定 不 同 儿童 在 不 同 场合 寻求 帮助 的 次 数 。 表 11 — 3 提供 了 肯 德 尔 斯 克 的 研究 数据 。 

表 11-3 儿童 行为 观察 测量 数据 (pXrXo 设 计 ) 


occasion 1 occasion 2 
person 


rater 1 rater 2 rater 1 rater 2 


VEE HE ENO ERE Ee KWo 
HO nee nHBennnee 
He HEH oNnwnoHHee 
HHH owmoHeHHonn 


对 于 表 11-3 的 儿童 行为 观察 测量 ,其 概 化 理论 研究 设计 属于 两 侧面 随机 设计 , 即 p 
rXo 设 计 。 两 个 侧面 的 儿童 行为 观察 测量 包含 了 许多 不 同 的 变异 来 源 ,如 表 11 4 所 示 。 
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表 11-4 两 侧面 随机 设计 (pXrXo 设计 ) 的 变异 来 源 (儿童 行为 观察 测量 例子 ) 


变异 来 源 变异 类 型 方差 分 量 
儿童 (p) 全 域 分 数 的 变异 (测量 目标 ) o 
评价 者 (7) 评价 者 的 宽松 或 严厉 度 对 所 有 儿童 造成 的 恒定 影响 (测量 侧面 ) o 
场合 (o) 场合 不 同 对 儿童 行为 的 不 一 致 造成 的 恒定 影响 (测量 侧面 ) o 
pr 对 部 分 儿童 的 行为 ,评价 者 评定 不 一 至 Gor 
po 由 于 场合 不 同 ,部 分 儿童 的 行为 不 一 致 dko 
ro 由 于 场合 不 同 ,评价 者 的 宽松 或 严厉 度 产 生 的 不 一 致 Om 
prose porso 产生 的 交互 作用 ;一 些 随机 的 或 系统 的 但 未 被 识别 的 变异 rove 


对 于 表 11 — 4 的 不 同 变异 来 源 , 作 如 下 解释 。 

第 一 个 变异 来 源 ,是 寻求 帮助 儿童 之 间 的 个 体 差异 。 这 个 变异 可 归 因 于 测量 目标 引起 
的 ,被 认为 是 全 域 分 数 的 变异 。 

第 二 个 变异 来 源 , 是 评价 者 之 间 的 不 一 致 性 引起 了 由 一 个 评价 者 概 化 到 所 有 评价 者 的 
误差 。 儿 童 寻找 帮助 的 结论 取决 于 他 们 被 抽 到 哪 一 组 ,这 表现 在 是 宽松 的 评价 者 还 是 严厉 
的 评价 者 ,这 两 者 比 起 来 ,宽松 的 评价 者 对 儿童 是 受益 的 。 我 们 应 该 注意 到 评价 者 的 宽松 或 
严厉 度 是 对 所 有 儿童 而 言 的 。 因 此 ,我 们 可 以 说 评价 者 的 主 效应 (如 同 在 方差 分 析 中 ) 是 恒 
定 效 应 ,因为 对 所 有 儿童 都 是 一 样 的 。 

第 三 个 变异 来 源 , 是 儿童 寻求 帮助 的 次 数 在 场合 上 的 不 一 致 性 引起 了 从 样本 概 化 到 全 域 
的 误差 。 在 特定 场合 发 生 的 一 些 事 影响 了 所 有 的 儿童 ,可 能 会 增加 或 减少 他 们 寻求 帮助 的 行 
为 。 例 如 , 若 周末 俗 事 过 量 , 儿 童 会 很 少 注意 到 这 些 任务 , 则 可 能 导致 儿童 寻求 更 少 帮助 。 在 
这 个 例子 中 ,这 种 情况 是 对 所 有 儿童 而 言 的 。 因 此 ,我 们 可 以 说 场合 的 主 效应 也 是 恒定 效应 。 

第 四 个 变异 来 源 , 是 对 于 特定 的 儿童 ,评价 者 评定 寻求 帮助 行为 时 可 能 出 现 不 一 致 。 例 
如 ,1 号 评价 者 可 能 对 4 号 .7 号 和 12 号 儿童 特别 宽松 ,而 2 号 评价 者 对 所 有 儿童 一 视 同仁 。 
对 于 这 种 变异 ,我 们 可 以 说 儿童 与 评价 者 之 间 存 在 交互 作用 ,因为 一 些 儿 童 和 一 些 评价 者 产 
生 了 独特 的 “交互 "结果 。 

第 五 个 变异 来 源 , 是 一 些 儿童 (不 是 所 有 儿童 ) 在 一 个 场合 可 能 寻求 更 多 帮助 ,但 在 男 一 
个 场合 则 不 然 。 这 种 不 一 致 性 不 是 针对 所 有 儿童 ,而 是 针对 一 些 特定 的 儿童 。 因 此 ,我 们 可 
以 说 儿童 与 场合 存在 交互 作用 。 

第 六 个 变异 来 源 , 是 由 于 场合 不 同 .评价 者 的 宽松 或 严厉 度 产生 的 不 一 致 。 在 一 个 场合 ， 
某 评价 者 在 评定 所 有 儿童 寻求 帮助 的 次 数 时 是 宽松 的 ,但 在 另外 一 个 场合 可 能 又 不 是 这 样 。 
因此 ,评价 者 与 场合 共同 对 所 有 儿童 产生 了 分 数 变异 ,这 称 之 为 评价 者 与 场合 的 交互 作用 。 

第 七 个 变异 来 源 ,包括 儿童 .评价 者 与 场合 的 交互 作用 (儿童 一 评价 者 一 场合 的 交互 作 
用 ) ,以 及 其 他 一 些 残 差 e, 这 些 残 差 包括 一 些 随 机 的 或 系统 的 但 未 被 识别 的 变异 。 


三 、 三 个 或 者 更 多 侧面 的 全 域 


社会 科学 测量 的 复杂 性 并 不 仅仅 局 限于 两 个 侧面 。 例 如 ,CTBS 科学 成 就 测验 的 使 用 
者 可 能 要 概 化 到 三 个 (或 更 多 侧面, 如 题目 .场合 .实施 者 等 。 我 们 知道 ,学 生 表现 可 能 会 
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不 同 题目 和 场合 而 改变 ,也 可 能 会 因 不 同 测验 实施 者 而 改变 。 那 么 ,实施 者 便 形 成 了 第 三 个 
侧面 。 如 此 ,可 允 观 测 全 域 定 义 了 三 个 侧面 一 题目 .场合 和 实施 者 一 这 三 者 放 到 了 一 
起 。 这 也 就 是 说 ,可 允 观 测 全 域 被 定义 为 在 所 有 可 能 的 场合 上 所 有 实施 者 对 学 生 实施 所 有 
的 题目 。 可 允 观 测 全 域 越 广 ,从 样本 概 化 到 全 域 造 成 的 误差 就 有 可 能 越 大 。 

于 是 ,对 于 这 样 的 CTBS 科学 成 就 测验 ,不 只 是 只 有 两 个 侧面 的 全 域 (题目 和 场合 ) ,而 
是 就 有 了 三 个 侧面 的 全 域 ( 题 目 、 场 合 和 实施 者 ) ,对 应 的 概 化 设 理论 研究 计 不 再 是 pXiXo， 
而 是 pXiXoXs( 这 里 的 s 表示 实施 者 )。 实 际 上 ,我 们 还 可 以 定义 更 多 侧面 的 全 域 来 进行 
这 样 的 CTBS 科学 成 就 测验 ,在 此 ,限于 篇 幅 就 不 再 举例 了 。 


四 、 交 又 设计 , 嵌 套 设计 和 混合 设计 


在 上 面 的 一 个 侧面 CTBS 科学 成 就 测验 的 例子 中 ,所 有 的 被 试 被 实施 所 有 的 题目 。 一 个 侧面 
的 所 有 条 件 ( 如 题目 ) 被 测量 目标 (如 被 试 ) 所 有 条 件 所 反应 ,我 们 把 这 样 的 一 个 测量 设计 称 为 交叉 
设计 。 在 这 种 设计 中 ,被 试 交叉 于 题目 , 即 pXi,“X” 符 号 表示 交叉 关系 。 类 似 地 ,在 上 面 的 两 个 
侧面 儿童 行为 观察 测量 的 例子 中 ,每 个 评价 者 在 每 个 场合 评定 儿童 寻找 帮助 的 次 数 。 在 这 个 设计 
中 ,有 三 个 变异 来 源 , 分 别 是 儿童 ,评价 者 和 场合 ,它们 都 是 交叉 的 , 即 pXrXo。 

在 上 面 的 一 个 侧面 CTBS 科学 成 就 测验 的 例子 中 ,也 有 可 能 出 现 这 种 情况 :所 有 被 试 被 
实施 不 同 题目 , 即 每 个 被 试 的 题目 都 是 不 同 的 ,20 个 被 试 共 需 要 160 道 题 目 (20X8)。 在 这 
种 设计 中 ,题目 嵌 套 于 被 试 , 即 i: p,“ : "符号 表示 嵌 套 关系 。 

在 上 面 的 两 个 侧面 儿童 行为 观察 测量 的 例子 中 ,评价 者 通过 看 录像 带 来 评定 儿童 在 不 
同 场合 寻求 帮助 的 次 数 。 所 有 评价 者 从 多 个 场合 评定 所 有 儿童 寻求 帮助 的 次 数 是 很 方便 
的 ,交叉 设计 在 这 种 情境 中 是 适合 的 。 但 是 ,如 果 评 价 者 在 教室 评定 儿童 行为 而 不 是 通过 看 
录像 带 来 进行 评定 ,那么 对 于 这 种 设计 ,所 有 评价 者 被 要 求 到 访 所 有 教室 ,是 不 方便 的 。 然 
而 ,不 同 的 评价 者 到 访 不 同 的 场合 可 能 是 更 为 方便 的 。 那 么 ,在 这 种 情况 下 ,评价 者 侧面 不 
是 与 场合 侧面 相交 叉 ,而 是 与 场合 侧面 相 嵌 套 , 即 r:o, 评 价 者 侧面 嵌 套 在 场合 侧面 内 。 当 角 
套 侧面 (评价 者 ) 的 两 个 或 更 多 条 件 出 现在 另 一 个 侧面 (场合 ) 两 个 或 更 多 条 件 中 时 ,我 们 说 
这 个 侧面 嵌 套 在 另 一 个 侧面 中 。 此 种 设计 既 包 含 交 叉 关 系 , 也 包含 嵌 套 关系 ,是 混合 设计 ， 
即 pX (r:0) ,在 这 种 设计 中 所 有 儿童 在 不 同 场合 由 不 同 评价 者 进行 评定 。 

总 之 , 概 化 理论 研究 设计 包含 交叉 设计 、 髓 套 设计 和 混合 设计 三 种 情况 。 


五 、 随 机 侧面 和 固定 侧面 


若 满足 下 列 条 件 , 则 样本 被 认为 是 随机 的 : D 样本 的 大 小 比 全 域 小 得 多 ;四 样本 被 认为 
是 随机 抽样 的 ;@ 所 抽取 的 样本 与 从 同一 全 域 抽取 的 另外 的 样本 是 可 以 相交 换 的 。 

要 判断 一 个 样本 是 否 可 以 被 看 作 是 随机 的 ,我 们 应 该 问 这 样 一 个 问题 :“ 我 是 否 愿意 将 
这 个 样本 与 其 他 具有 相同 数量 的 、 从 全 域 随机 抽出 的 样本 相交 换 ?” 如 果 这 个 答案 是 肯定 的 ， 
那么 测量 侧面 可 以 被 认为 是 随机 的 。 例 如 ,如 果 一 个 决策 者 愿意 将 一 个 样本 与 另外 一 个 样 
本 交换 所 有 样本 题目 ,那么 题目 侧面 可 以 被 认为 是 随机 的 。 对 于 表 11- 1 的 CTBS 科学 成 
就 测验 pxi 设 计 , 题 目 侧面 的 8 道 题 被 认为 是 从 一 个 大 的 题目 全 域 中 随机 抽取 的 ,是 可 以 与 
另外 一 个 样本 的 8 道 题 目 相交 换 的 。 因 此 ,题目 侧面 可 以 被 认为 是 随机 的 。 

然而 ,另外 一 种 情况 是 ,测量 侧面 的 条 件 * 耗 竭 " 了 研究 者 想 要 概 化 到 的 所 有 条 件 。 例 
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如 ,CTBS 科学 成 就 测验 经 常 有 多 个 子 测 验 , 主要 包括 数学 \ 科 学 ` 社 会 研究 .语言 艺术 ,等 
等 。 在 这 种 情况 下 ,交换 条 件 是 不 可 能 的 ,因为 子 测验 的 条 件数 与 概 化 全 域 相等 。 这 时 ,我 
们 把 子 测验 作为 固定 侧面 来 处 理 (类 似 于 ANOVA 中 的 固定 因素 ), 是 更 合适 的 。 又 如 ,对 
于 表 11-1 所 示 的 CTBS 科学 成 就 测验 ,如 果 8 道 题 不 属于 同一 种 题 型 ,而 是 属于 四 种 题 型 
(选择 题 .填空 题 . 简 答题 和 问答 题 ) ,每 种 题 型 各 有 2 道 题 ,那么 对 应 的 概 化 理论 研究 设计 是 
pX(i:h),h 表示 题 型 。 在 这 个 设计 中 , 题 型 是 不 可 以 交换 的 , 即 我 们 不 能 认为 选择 题 题 型 可 
以 与 填空 题 题 型 相交 换 , 也 不 能 认为 简 答题 题 型 可 以 与 问答 题 题 型 相交 换 , 等 等 。 实 际 上 ， 
题 型 不 仅 是 有 限 的 ,也 是 不 能 相交 换 的 , 题 型 是 固定 的 。 因 此 , 题 型 是 固定 侧面 。 
总 之 , 概 化 理论 把 测量 侧面 分 为 随机 侧面 和 固定 侧面 两 种 。 


第 二 节 ” 概 化 理论 分 析 过 程 


进行 概 化 理论 分 析 一 般 包 括 4 个 步骤 ,具体 如 下 。 

第 一 ,明确 概 化 设计 。 概 化 设计 又 称 为 概 化 理论 研究 设计 。 明 确 概 化 设计 是 进行 概 化 理 
论 分 析 的 第 一 步 ,这 一 步 需要 明确 的 问题 包括 : 一 是 数量 , 即 测量 目标 和 测量 侧面 的 数量 ,测量 
目标 和 测量 侧面 的 水 平 数 ;二 是 关系 , 即 测量 目标 之 间 的 关系 、 测 量 侧 面 之 间 的 关系 及 测量 目 
标 与 测量 侧面 之 间 的 关系 ;三 是 条 件 , 即 不 同 测量 目标 间 同 一 测量 侧面 的 条 件 是 否 相 同 。 

第 二 ,确定 数据 结构 和 概 化 模型 。 根 据 实际 测量 的 要 求 , 用 图 表 的 形式 表示 数据 结构 和 
概 化 模型 有 利于 理解 概 化 理论 研究 设计 。 但 是 ,我 们 需要 注意 区 分 单 变 量 概 化 理论 和 多 元 
概 化 理论 数据 结构 和 概 化 模型 的 不 同 。 单 变量 概 化 理论 测量 目标 变量 仅 一 个 ,而 多 元 概 化 
理论 测量 目标 变量 可 以 是 多 个 。 在 某 种 意义 上 , 单 变量 概 化 理论 模型 是 多 元 概 化 理论 模型 
的 简化 。 然 而 ,具有 多 个 测量 目标 变量 不 一 定 就 能 进行 多 元 概 化 理论 分 析 , 这 是 因为 若 测量 
目标 变量 相关 很 低 ,或 者 相互 独立 , 则 需要 分 别 进 行 多 个 单 变量 的 概 化 理论 分 析 , 而 不 能 进 
行 多 元 概 化 理论 分 析 。 

第 三 ,进行 G 研究 。G 研究 (Generalizability study) 又 称 为 概 化 研究 ,其 主要 任务 是 在 研究 
设计 的 基础 上 , 尽 可 能 地 “挖掘 ”出 各 种 潜在 的 测量 误差 来 源 ,并 估计 出 这 些 误差 来 源 的 方差 分 
量 (variance components), FE G 研究 中 ,测量 的 条 件 全 域 是 可 允 观 测 全 域 。 可 允 观 测 全 域 中 的 
测量 侧面 一 般 作 * 随 机 性 ”假定 ,其 全 域 容量 也 作 * 无 限 ” 假 定 。 可 允 观 测 全 域内 部 的 测量 侧面 
之 间 、 测 量 侧面 与 测量 目标 之 间 一 般 作 “交叉 关系 ”假定 ,当然 也 有 不 是 “交叉 关系 ”的 情况 。 

第 四 ,进行 D 研究 。D 研究 (Decision study) 又 称 为 决策 研究 ,其 主要 任务 是 为 了 某 种 特殊 
的 决策 需要 ,以 G 研究 所 得 到 的 这 些 方差 分 量 为 基础 ,通过 调整 测量 过 程 中 各 方面 的 关系 (如 
调整 各 个 测量 侧面 样本 水 平 数 的 多 少 、 调 整 各 个 测量 侧面 之 间 的 关系 、 改 变 不 同 变量 权重 等 )， 
来 探索 如 何 控制 和 调整 测量 误差 。 在 D 研究 中 ,所 涉及 的 条 件 全 域 是 概 化 全 域 Cuniverse of 
generalizability) ,而 不 是 可 允 观 测 全 域 , 仅 是 可 允 观 测 全 域 的 一 个 子 集 , 能 与 可 允 观 测 全 域 相 
同 ,也 可 能 不 同 。 概 化 全 域 中 测量 侧面 是 否 作 ”随机 性 ”假定 .哪些 测量 侧面 作 * 随 机 性 ?假定 、 
各 个 测量 侧面 的 全 域 容量 是 有限" 还 是 “无 限 ”测量 侧面 之 间 的 关系 是 “交叉 ?还 是 “ 骨 套 ”等 ， 
均 需 要 根据 研究 决策 的 需要 来 进行 调整 。 概 化 理论 其 中 一 个 目的 是 评估 大 部 分 的 变异 来 源 ， 
以 便 把 不 想 要 的 变异 在 未 来 收集 数据 时 能 够 得 到 消除 或 减少 。 在 应 用 方面 , 概 化 理论 D 研究 
不 仅 可 以 评估 一 个 已 有 的 测验 ,也 可 以 重新 设计 一 个 全 新 的 测验 (如 预测 测验 题目 的 数量 等 ) 。 


接 下 来 ,以 表 11-1 的 CTBS 科学 成 就 测验 pX i 设计 为 例 , 来 说 明 进 行 概 化 理论 分 析 的 
4 个 步骤 。 

第 一 ,明确 概 化 设计 。 在 这 个 例子 中 ,测量 目标 是 被 试 (p) ,测量 侧面 是 题目 (i),p 和 i 都 随 
机 ,构成 测量 的 情境 关系 。 测 量 目标 对 应 的 总 体 是 测量 总 体 (population of measurement) ,假定 
为 无 限 , 那 么 这 20 个 被 试 表示 是 从 一 个 无 限 被 试 总 体 中 随机 抽取 出 来 的 。 测 量 侧 面 对 应 的 总 
体 是 可 允 观 测 全 域 ,假定 为 无 限 ,那么 这 8 个 题目 是 从 一 个 无 限 题 目 全 域 中 随机 抽取 出 来 的 。 
被 试 (p) 和 题目 (i) 一 一 见面 ,具有 “交叉 ”关系 ,研究 设计 可 表示 为 pXi。 

第 二 ,确定 数据 结构 和 概 化 模型 。 概 化 理论 研究 设计 为 pXi, 被 试 数 为 20, 题 目 数 为 8， 
数据 结构 可 表示 为 20X8, 如 表 11 -1 所 示 。pXi 设 计 的 概 化 理论 数学 模型 ( 概 化 模型 ) 可 表 
示 为 


Xs=p+ po —p) + pa—p) t+ (Xs pp — pi te) i= 
在 公式 (11 -1) 中 ,Xs 表示 被 试 在 题目 上 的 观察 分 数 (observed score); p 表示 总 体 均 
{Hs EL p= EEX spo 表示 被 试 的 均值 , 且 pp = EX 5 表示 题目 的 均值 , 且 MEX so Lal 
和 Ai 是 可 允 观 测 全 域 上 的 均值 ,为 总 体 参数 。 公 式 (11 一 1) 也 可 以 写成 
Xw 一 /十 mp 十 有 十 en (11 =2) 
在 公式 (11 - 2) Fp, pm, RAS BIR AY BOM syi — p= 8, 表示 题目 的 效应 ;Xs 一 pj — ai 
+ p= ey KAR BIR GA BE. AFG BR PE) AYR, 
单 侧面 随机 pXi 设计 的 基本 假设 为 : Ex, EB Ee, Ees =0, Emmy) =E (BR) =E 
(enepi)=E(enew ) =E lepep) =0, Emh) = Etpe) =E (Be) =0. 
概 化 理论 属于 随机 抽样 理论 ,一 般 情 况 下 仅 能 得 到 样本 数据 。 在 这 种 情况 下 ,人 们 不 


得 不 利用 样本 均值 (样本 统计 量 ) 来 估计 总 体 均值 (总 体 参数 ), 即 用 X= YD Xe X= 


z nni 


y Šu X=) 半分 别 估计 /ws 和 种。 那么 ,公式 (11-1) 变 为 


Xa =X+(X,—X)+(X:—-X)+(Xa—X,— X: +X) (11-3) 
将 公式 (11 - 3) 进一步 变换 ,可 得 
(Xp—X)=(X,—X) 4+ (Xi -X) + (XX, — Xi +X) (11-4) 
公式 (11 一 4) 表 明 总 的 效应 等 于 被 试 的 效应 、 题 目的 效应 、 被 试 与 题目 交互 (包括 残 差 ) 
的 效应 之 和 。 
第 三 ,进行 G 研究 。G 研究 的 主要 任务 是 进行 方差 分 量 估计 。 为 了 获得 各 个 效应 的 方 
差分 量 , 需 要 使 用 方差 分 析 (ANOVA) 等 技术 。pXi 设 计数 据 结 构 如 表 11-5 所 示 。 


表 11-5 pXi 设 计数 据 结构 


i iz ee in 


Pr Xu Xz en Xin 
P: Xa he ~ Xen 
Pr, Xe Xn 2 oe x, 


p P rf pi 
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根据 表 11 — 5 的 数据 ,可 以 获得 方差 分 析 的 有 关 统 计量 ,如 表 11- 6 所 示 。 
表 11-6 pXi 设 计 方差 分 析 的 有 关 统 计量 


变异 来 源 平方 和 自由 度 均 方 期 望 均 方 

被 试 (p) ss, 加 一 1 MS,=SS,/df,  EMS,=03,.tmno} 

MAG SS, n-1 MS =SS,/df, site dale 
pire SSpi.e (nlm — 1)  MSpie = SSpie /dfpi.e EMS,.,. = 0h 


在 表 11-6 中 ,SS, x SS; .SSu,. 分 别 表示 被 试 的 效应 平方 和 (sum of square) 、 题 目的 效应 
平方 和 ,被 试 与 题目 交互 (包括 残 差 ) 的 效应 平方 和 ;MS,、MS; 、MS,,. 分 别 表示 被 试 的 效应 均 
H (mean square) ,题目 的 效应 均 方 ,被 试 与 题目 交互 (包括 残 差 ) 的 效应 均 方 ;EMS,、EMS、 
EMS;,. 分 别 表示 被 试 的 效应 期 望 均 方 (expected mean square)、 题 目的 效应 期 望 均 方 、 被 试 
与 题目 交互 (包括 残 差 ) 的 效应 期 望 均 方 ;a .of .ae 分 别 表示 被 试 的 方差 分 量 .题目 的 方差 分 
量 、 被 试 与 题目 交互 (包括 残 差 ) 的 方差 分 量 。 

通过 表 11 -6 可 以 看 出 ,为 了 获得 估计 的 方差 分 量 , 应 该 先 求 出 效应 平方 和 。 对 公式 
(11-4) 进 一 步 推理 ,可 得 

(Xj —X)=(X,—X) + (X,—X) + (XX, -X: +X) 

DD (Ku—X)= DD LK, —X)+ RK) + Xp XXX) 

DD Rs—X):= DD 0X, -X) 4+ CK, XX X X+ 

根据 单 侧面 随机 pXi 设计 的 基本 假设 ,可 证 明 

之 之 Xa- X} = 之 之 (X,—-X)?4 pap» (X,—X)?4 > (Xa —X, -X +X)" 

2E (Xa — X} =n, 2 (X,—X)? +n, 3 X-X + paps (X,—X,—X, +X)? 

上 式 中 ， 之 之 Xa -5 表示 总 的 效应 平方 和 ; DES —X)*=n, 2x, —x)? 
表示 被 试 的 效应 平方 和 pp» X-X =n, > (X,—-X)? 表示 题目 的 效应 平方 和 ; 


yD Gree KHN? 表示 被 试 与 题目 交互 (包括 残 差 ) 的 效应 平方 和 。 
按照 上 式 可 得 到 下 列 公 


SSroa = SS, + SS; +SSyi.0 1-5) 
公式 (11-5) 表 明 总 的 效应 平方 和 等 于 被 试 的 效应 平方 和 、 题 目的 效应 平方 和 、 被 试 与 
题目 交互 (包括 残 差 ) 的 效应 平方 和 之 和 。 
针对 表 11 — 1 数据 ,可 求 出 各 效应 平方 和 ,其 操作 过 程 如 下 。 
O 求 出 总 的 效应 平方 和 。 其 过 程 是 : 先 将 20X8 王 160 个 数据 拉 成 一 列 ,这 一 列 共 有 
160 个 数据 点 ,如 表 11 - 7 所 示 , 计 算 X CO. 437 5) .然后 求 出 每 行 对 应 的 Xu 一 入 ,再 求 出 
(Xa —X)? ,最 后 可 得 SSrwu 一 >) >) (Xu 一 X)? 一 39.375 0, 


i-s see MEES 


表 11-7 CTBS 科学 成 就 测验 160 个 数据 点 及 离 差 平方 和 


No. data X,—-X (Xu— K’ 
0 一 0.4375 0.191 406 
1 0.5625 0. 316 406 
1 0.5625 0. 316 406 
158 1 0.5625 0. 316 406 
159 0 一 0.4375 0. 191 406 
160 0 一 0.4375 0. 191 406 
DD m= 39. 375 0 

T 


© 求 出 被 试 的 效应 平方 和 。 其 过 程 是 : 先 求 出 被 试 平均 分 X, We 11 -8 所 示 , 然 后 
求 出 每 行 对 应 的 (X, 一 X)*, 再 求 出 >》 (X, 一 X):, 最 后 可 得 SS, =n, 5) (X,—X)? 一 


8x >) (X,—X)?=8. 625 0。 
> 


表 11 -8 CTBS 科学 成 就 测验 被 试 平均 分 及 离 差 平方 和 


题 B = E 
被 试 ea (X-X 
1 2 3 4 5 6 7 8 
1 0 1 0 0 0 1 0 1 0.375 0. 003 906 
2 1 0 1 0 0 0 0 1 0.375 0. 003 906 
3 1 1 1 0 0 0 0 0 0.375 0. 003 906 
4 1 ji 0 0 1 0 0 1 0. 500 0. 003 906 
5 1 1 1 1 0 0 0 0.625 0. 035 156 
6 1 1 1 1 1 1 1 1 1,000 0. 316 406 
7 1 0 1 0 0 1 1 0 0. 500 0. 003 906 
8 1 0 0 0 0 1 1 0. 500 0. 003 906 
9 1 0 0 0 0 1 1 0. 500 0. 003 906 
10 0 1 0 0 1 1 0 0 0.375 0. 003 906 
11 0 0 0 1 1 1 0 0 0. 375 0. 003 906 
12 0 0 1 0 0 0 0 0 0.125 0. 097 656 
13 1 1 1 1 1 1 1 1 1.000 0. 316 406 
14 0 0 0 0 0 1 1 1 0. 375 0. 003 906 
15 0 0 1 0 0 0 0 0. 250 0. 035 156 
16 1 a 1 0 0 1 0 0 0. 500 0. 003 906 
7 0 1 0 0 0 0 0 0 0.125 0. 097 656 
18 1 0 0 0 0 1 1 有 0. 500 0. 003 906 
19 0 0 0 0 0 1 1 0 0. 250 0. 035 156 
20 0 1 0 0 0 0 0 0 0.125 0. 097 656 


X CX —X)*= 1, 078 125 
5 


m 2) (X-X =g, 625 0 
5 
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@ 求 出 题目 的 效应 平方 和 。 其 过 程 是 : 先 求 出 题目 平均 分 X ,如 表 11 -9 所 示 ,然后 
求 出 每 列 对 应 的 (Xi 一 X)*, 再 求 出 >) (Xi 一 X)*, 最 后 可 得 SS =n, 2) (Xi 一 X)* 一 


20% >) (K\—X)?=2. 7750. 


表 11-9 CTBS 科学 成 就 测验 题目 平均 分 及 离 差 平 方 和 


题 目 
被 试 

1 2 3 4 5 6 7 8 

1 0 1 0 0 0 1 0 
2 1 0 0 0 0 0 1 
3 1 1 1 0 0 0 0 0 
4 1 1 0 0 1 0 0 1 
5 1 1 1 1 0 0 0 1 
6 1 1 1 1 1 1 1 1 
7 1 o 1 o 0 1 1 0 
8 1 0 1 0 0 0 1 
9 1 o o o 0 1 1 1 
10 0 1 0 0 1 1 0 0 
11 0 0 0 1 1 1 0 0 
12 0 0 1 0 0 0 0 0 
13 1 1 1 | 1 1 1 
14 0 0 0 0 0 1 1 1 
15 0 0 1 0 0 0 0 1 
16 1 1 1 0 0 1 0 0 
17 0 1 0 0 0 0 0 0 
18 1 0 0 0 0 1 1 1 
19 0 0 0 0 0 1 1 0 
20 0 1 0 0 0 0 0 0 

X 0.5500 0.5000 0.5000 0.2000 0.2500 0.5500 0.4000 0.5500 
(ED? 0.0127 0.0039 0.0039 0.0564 0.0351 0.0127 0.0014 0.0127 

> (Xi—X)*= 0,012 7+0, 003 9+0. 003 9 十 0.056 4+0. 035 1+0. 012 7+0. 001 4+0. 012 7=0, 138 8 


m >) K-X)= 20x0. 138 8=2. 775 0 
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O 求 出 被 试 与 题目 交互 (包括 残 差 ) 的 效应 平方 和 。 根 据 公式 (11 - 5) 可 知 ,SSu,. 一 
SSrom — SS, — SS; » SSpi.e =39. 375 0—8. 625 0—2. 775 0=27. 975 0。 

获得 了 各 效应 的 平方 和 ,再 求 出 各 均 方 : MS, =SS,/df, =8. 625 0/19=0. 453 9, MS; = 
SSi/dfi=2.775/7=0. 396 4,MSy.e=SSyie/Af pine = 27. 975 0/133=0. 210 3, 

可 以 证 明 ( 读 者 自行 完成 ) ,期 望 均 方 与 方差 分 量 存在 如 下 关系 : 


EMS, =0ż,. +n (11-6) 
EMS, =63,,, Hno? qi= 
EMS; = 0h.. (11-8) 


但 是 ,公式 (11-6) 一 公式 (11-8) 是 针对 总 体 而 言 的 ,需要 使 用 样本 来 推断 总 体 , 即 用 
样本 统计 量 估计 总 体 参 数 。 其 做 法 是 : 用 MS 代替 EMS, Jil a? 代替 吓 , 那 么 公式 (11-6) 一 
公式 (11 - 8) 变 为 


MS, =6.,. +768 (11-9) 
MS, =65;,. Hno; (1-10) 
MSyine = Shine (11-11) 
根据 公式 (11-9) 一 公式 (11-11), 可 求 出 估计 的 方差 分 量 
a — ME Mus (1-12) 
ee (1-13) 
» 
Dhire = MSpi,e (1-14) 


在 公式 (11- 12) 一 公式 (11- 14) as 表示 估计 的 被 试 的 方差 分 量 ,a? 表示 估计 的 题目 
的 方差 分 量 ,到 ,。 表 示 估 计 的 被 试 与 题目 交互 (包括 残 差 ) 的 方差 分 量 。 按 照 公式 (11- 12) 一 
公式 (11 - 14) ,计算 可 得 
# MS, — MSy,. _ 0. 453 $0. 2108 
ni 


z2 -MS\—MSy.. _ 0. 396 4—0. 210 3 
£ Ny 20 
Bie =MSyine=0. 210 3 
将 上 述 G 研究 结果 进行 汇总 ,所 得 结果 如 表 11 - 10 所 示 。 


表 11-10 CTBS 科学 成 就 测验 G 研究 结果 


0.030 5 


0. 009 3 


变异 来 源 平方 和 自由 度 均 方 方差 分 量 百分比 

被 试 (p) 8.6250 19 0.4539 0.0305 12% 

题目 (iD 2.7750 i 0. 396 4 0. 009 3 4% 
pise 27.9750 133 0.2103 0. 2103 84% 


第 四 ,进行 D 研究 。D 研究 可 按 下 列 两 种 方式 进行 : 一 是 改变 题目 数 ;二 是 改变 研究 设 
计 , 即 将 交叉 设计 p< i HOE ARE it p。 两 种 D 研究 结果 如 表 11- 11 和 表 11-12 
所 示 。 
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表 11-11 CTBS 科学 成 就 测验 D 研究 结果 (改变 题目 数 ) 


变异 来 源 变异 量 n=l ni=8 ni=20 ni =30 ni=40 
被 试 (p) 的 方差 分 量 a 0. 030 5 0.030 5 0.030 5 0.0305 
题目 (iD 的 方差 分 量 a 0. 009 3 0.001 2 0. 000 3 0. 000 2 
pise 的 方差 分 量 dhe 0. 210 3 0.026 3 0. 007 0 0. 005 3 
相对 误差 方差 ka 0.2103 0.026 3 0. 007 0 0.0053 
绝对 误差 方差 vs 0, 219 6 0.0275 0.007 3 0.0055 
概 化 系数 Ep 0.1267 0. 537 0 0.8133 0. 8520 

可 靠 性 指数 3 0.1220 0.5259 0. 806 9 0. 847 2 


在 表 11-11 中 ,5 表示 估计 的 相对 误差 方差 , 且 Ska ;Gu 表示 估计 的 绝对 误差 方 


MHL hn = rt ie pt 表示 估计 的 概 化 系数 (G RHO. A Ep =a G 表示 估计 的 
i i p Rel 


可 靠 性 指数 ($ 指数 ), 且 j= 


AR 11- 11 可 以 看 出 ,用 一 个 题目 考查 被 试 科 学 成 就 水 平 的 概 化 系数 和 可 靠 性 指数 分 别 
为 0.1267 和 0.122 0, 可 靠 性 相当 低 , 但 当 题 目 增 至 8 个 时 , 概 化 系数 和 可 靠 性 指数 有 明显 提 
高 ,达到 了 0. 537 0 和 0. 525 9。 如 果 要 使 概 化 系数 和 可 靠 性 指数 都 达到 0. 80 以 上 ,根据 
表 11 - 11, 那 么 至 少 需要 30 个 题目 (这 时 的 概 化 系数 和 可 靠 性 指数 分 别 为 0. 813 3 和 0. 806 9), 
表 11-12 CTBS 科学 成 就 测验 D 研究 结果 (改变 研究 设计 ) 
pXi 设 计 i it p Bit 
变异 来 源 变异 量 n=l w=20 : 变异 来 源 ”变异 量 n=l ni =20 


被 试 (p) 的 方差 分 量 a 0.0305 0.0305 ;被 试 (p) 的 方差 分 量 a 0.0305 0.0305 
MAORI Ft 0.0093 0.0005 | 
pise 的 方差 分 量 Ge 0.2103 0.0105 ; i:p 的 方差 分 量 fs 0.2196 0.0110 


相对 误差 方差 Geet 0.2103 0.0105 | 相对 误差 方差 Ghat 0.2196 0.0110 
绝对 误差 方差 Thos 0.2196 0.0110 ; ”绝对 误差 方差 Fits 0.2196 0.0110 

概 化 系数 Ep* 0.1267 0.7439 : 概 化 系数 Ep’ 0.1220 0.7349 
可 靠 性 指数 $ 0.1220 0.7349 | 可 靠 性 指数 $ 0.1220 0.7349 


从 表 11-12 可 以 看 出 , 当 pXi 设 计 改变 为 1: p 设计 后 , 概 化 系数 和 可 靠 性 指数 改变 相 
对 较 小 ,其 原因 是 题目 侧面 的 方差 分 量 较 小 ( 约 为 4% ,如 表 11 - 10 所 示 )。 但 是 ,这 两 种 设 
计 的 结果 仍然 有 差别 ,分 析 如 下 : pXi 设计 要 求 的 题 量 较 少 ( 仅 为 8 个 ) ,而 i: P 设 计 要 求 的 
题 量 大 大 增加 (多 达 160 个 ) , 若 按 实际 费用 考虑 , 则 交叉 设计 更 为 合理 ,但 若 考虑 题目 曝光 
率 ,如 计算 机 化 自 适应 测验 , 则 i : p 更 为 合理 ,因为 每 道 题目 被 曝光 的 概率 大 大 降低 ,试题 
被 “ 偷 ” 的 可 能 性 也 随 之 降低 。 

如 此 看 来 ,是 选择 pXi 设计 ,还 是 选择 i: p 设计 ,应 该 视 不 同情 况 而 定 , 应 该 根据 测验 
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的 目的 和 需要 进行 权衡 考量 。 

以 上 是 通过 表 11 -1 的 CTBS 科学 成 就 测验 的 例子 ,来 说 明 进 行 概 化 理论 分 析 的 4 个 
步骤 。 实 际 上 ,对 于 其 他 的 例子 ,如 表 11- 3 的 儿童 行为 观察 测量 的 例子 ,完全 可 仿照 上 述 4 
个 步骤 进行 分 析 。 但 是 ,限于 篇 幅 ,在 本 书 中 就 不 再 展开 讨论 了 。 


第 三 节 ” 概 化 理论 应 用 


概 化 理论 可 应 用 于 表现 性 评价 ,多 源 评估 心理 测验 结构 化 面试 .评价 中 心 等 各 种 测评 中 ， 
如 下 。 

第 一 , 概 化 理论 应 用 于 表现 性 评价 。 表 现 性 评价 (performance assessment) 是 评价 者 按 
照 某 种 要 求 对 被 评价 者 的 表现 进行 评估 的 一 种 方法 。 一 个 复杂 的 表现 性 评价 受到 多 种 因素 
影响 ,如 评价 者 、 任 务 和 场合 等 。 经 典 测验 理论 通常 一 次 仅 能 考虑 一 个 因素 ,而 概 化 理论 可 
以 同时 考察 多 个 因素 。 表 现 性 评价 常用 的 概 化 理论 研究 设计 既 包 括 交叉 设计 (如 pXi、pXr 
Xo 等 ), 也 包括 赔 套 设计 (如 r: o\i:p 等 ) 和 混合 设计 (如 pX(i:o)、px(i:h) 等 )。 在 G 
研究 基础 上 , 概 化 理论 D 研究 可 以 改变 测量 侧面 所 包含 的 条 件数 量 来 进行 决策 研究 ,常用 的 
估计 方差 分 量 或 协 方差 分 量 的 方法 是 ANOVA 或 MANOVA 方法 ,常用 的 操作 软件 包括 
GENOVA urGENOVA 和 mGENOVA 等 。 在 表现 性 评价 中 ,使 用 概 化 理论 具有 如 下 优 
势 : 一 是 可 以 比较 多 种 因素 对 测量 目标 的 贡献 ,从 而 确定 哪 种 评价 更 为 合理 ;二 是 可 以 通过 
分 析 被 试 的 表现 , 探 明 隐藏 在 表现 性 评价 背后 的 影响 因素 ,并 估计 出 它们 的 误差 大 小 ;三 是 
可 以 考察 表现 性 评价 产生 的 评分 误差 ,估计 出 评分 者 之 间 的 一 致 性 。 

第 二 , 概 化 理论 应 用 于 多 源 评估 。 多 源 评 估 (multisource rating). BI 360" 反 馈 评 价 , 是 
一 种 打破 了 自 上 而 下 传统 考评 的 方法 ,是 从 不 同 范围 层面 的 群体 收集 考评 信息 ,并 反馈 至 被 
考评 者 的 一 种 方法 。 多 源 评估 突破 了 传统 评价 的 最 大 难点 一 一 行为 评价 ,是 一 种 更 科学 的 
评价 方法 。 这 种 方法 既 能 促使 评估 对 象 更 准确 地 认识 自己 的 优 劣 ,更 清楚 地 把 握 个 人 的 发 
展 ,提升 团队 的 凝聚 力 , 又 能 增进 评价 的 效果 。 使 用 概 化 理论 分 析 测 评 中 的 多 源 评估 ,其 优 
点 是 : 与 其 他 测验 理论 相 比 , 概 化 理论 能 从 多 方面 分 解 多 源 评估 的 误差 ,能 够 较 大 程度 地 保 
证 测评 的 信 度 和 效 度 。 现 代 商 业 趋 势 促 使 人 们 对 于 传统 的 评估 系统 提出 了 新 的 要 求 ,传统 
意义 上 的 仅仅 依赖 以 上 级 考核 为 中 心 的 评估 系统 已 经 变 得 不 再 适合 了 ,多 源 评估 正 是 迎合 
了 这 种 需要 。 概 化 理论 运用 其 随机 化 技术 和 统计 调整 技术 ,能 够 将 多 源 评估 中 不 同 途 径 造 
成 的 误差 来 源 进行 分 解 和 估计 ,从 而 达到 尽 可 能 地 探 明 误差 的 来 源 , 增 强 了 评估 的 说 服 力 。 
另外 , 概 化 理论 还 可 以 进行 多 源 评估 的 事后 分 析 , 即 在 探 明 误差 来 源 的 基础 上 ,能 够 根据 误 
差 大 小 来 进行 预测 和 调控 ,从 而 帮助 人 们 进行 方案 调整 。 多 源 评 估 多 采用 多 元 概 化 理论 对 
评估 者 效应 进行 分 析 , 其 设计 包括 p Xr ap Xr vp’ Xi Xr 等 ,实心 上 标 *。 ”表示 变量 
间 测 量 侧面 的 条 件 是 相同 的 ,空心 上 标 “*" 表 示 变 量 问 测 量 侧面 的 条 件 是 不 同 的 。 

第 三 , 概 化 理论 应 用 于 心理 测验 。 心 理 测验 (psychological test) 是 通过 观察 人 的 少数 有 
代表 性 的 行为 ,对 于 贯穿 在 人 的 行为 活动 中 的 心理 特征 ,依据 某 种 原则 进行 推论 和 数量 化 分 
析 的 一 种 科学 手段 ,其 实质 是 对 行为 样本 客观 而 标准 化 的 测量 。 心 理 测 验 是 各 种 测评 的 重 
要 手段 ,其 作用 最 早 是 在 战争 中 显示 出 来 的 。 在 第 一 次 世界 大 战 期 间 , 美 国人 为 了 防止 低能 
的 或 不 合格 的 士兵 人 伍 , 于 是 便 请 心理 学 家 编制 了 团体 智力 测验 (陆军 甲 种 和 乙 种 测验 ) ,为 
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挑选 聪明 的 士兵 或 使 聪明 的 人 担任 更 重要 的 任务 做 出 了 贡献 。 概 化 理论 应 用 于 心理 测验 ， 
其 G 研究 常 借助 ANOVA 或 MANOVA 方 法 来 分 解 不 同 设计 各 种 效应 的 方差 或 协 方差 分 
量 , 如 在 G 研究 中 ,可 分 解 p" XG h ) 设 计 各 种 效应 的 方差 和 协 方差 分 量 ; 其 D 研究 则 
是 在 G 研究 的 基础 上 ,选择 最 优 的 测量 方案 ,为 测验 的 改进 提供 依据 ,如 在 D 研究 中 ,常常 
通过 改变 被 试 、 项 目的 数量 或 将 随机 侧面 变 为 固定 侧面 等 方法 来 获得 最 优 的 测量 方案 。 

第 四 , 概 化 理论 应 用 于 结构 化 面试 。 结 构 化 面试 (structured interview) 是 一 种 根据 特 
定 职位 的 胜任 特征 要 求 , 遵 循 固定 程序 ,采用 专门 的 题 集 、 评 价 标 准 和 评价 方法 ,通过 考官 
与 应 考 者 面对面 的 言语 交流 等 方式 ,评价 应 考 者 胜任 素质 的 人 事 测评 方法 。 面 试 几乎 在 
所 有 的 人 事 招聘 中 都 会 被 用 到 ,而 且 面 试 的 结果 在 最 终 决策 中 所 占 的 比重 越 来 越 大 。 但 
面试 具有 主观 性 大 \ 面 试 考官 容易 产生 偏见 等 缺点 。 结 构 化 面试 作为 一 种 多 维度 的 综合 
性 测评 ,运用 多 元 概 化 理论 不 仅 可 以 提供 多 变量 测评 中 协 方差 构成 的 侧面 信息 ,而且 还 可 
以 全 面 分 析 面试 过 程 中 的 评价 信息 ,为 探求 最 优化 面试 设计 方案 提供 有 益 参 考 。 例 如 ,使 
用 多 元 概 化 理论 ,可 以 确定 结构 化 面试 结构 维度 权重 何 种 情况 最 佳 ,克服 了 面试 中 人 为 规 
定 权 重 的 夷 端 。 概 化 理论 把 一 些 无 关 变 量 一 并 引入 结构 化 面试 测量 模型 之 中 ,在 剔除 这 
些 变 量 的 影响 后 ,被 试 之 间 水 平 的 真正 差异 便 能 够 得 到 清晰 显现 ,从 而 达到 对 误差 进行 控 
制 的 目的 。 另 外 ,使 用 概 化 理论 也 可 以 探查 出 在 结构 化 面试 中 影响 测评 的 最 主要 因素 ,为 更 
好 地 进行 结构 化 面试 提供 有 力 证 据 。 

第 五 , 概 化 理论 应 用 于 评价 中 心 。 评 价 中 心 (assessment center) 一 直 是 西方 国家 流行 的 
一 种 评价 .选拔 和 培训 管理 人 员 ( 尤 其 是 中 高 层 管理 人 员 ) 的 综合 性 人 事 测 评 方法 。 作 为 一 
种 人 事 测评 方法 ,其 效 度 是 研究 者 和 实际 工作 者 极为 关心 的 一 个 问题 。 评 价 中 心 通过 模拟 
多 种 任务 来 进行 测评 ,是 一 种 现代 人 事 测评 的 主要 形式 。 然 而 ,评价 中 心 的 结构 效 度 有 可 能 
不 其 理想 。 如 何 让 评价 者 尽 可 能 地 作出 更 加 接近 被 试 真实 能 力 水 平 的 评价 , 即 如 何 更 好 地 
控制 好 评分 误差 ,一直 是 对 评价 中 心 进行 系统 研究 和 开发 应 用 的 专业 工作 者 十 分 关心 的 问 
题 。 要 了 解 如 何 控制 评分 误差 ,首先 要 考虑 的 问题 就 是 了 解 影响 评分 误差 的 因素 有 哪些 , 即 
可 能 的 误差 来 源 有 哪些 。 对 于 评价 中 心 结 构 效 度 的 检验 ,传统 上 多 采用 多 元 特质 一 多 重 方 
法 ,探索 性 因素 分 析 以 及 验证 性 因素 分 析 等 技术 。 但 是 ,无 论 是 多 元 特质 一 多 重 方法 ,还 是 
因素 分 析 ,都 多 注重 考察 测验 维度 和 测评 方法 对 测验 分 数 的 影响 。 然 而 ,尽管 它们 在 某 种 程 
度 上 能 够 说 明 测 验 的 结构 效 度 , 但 由 于 在 内 容 上 仅 局 限于 测验 维度 和 测评 方法 两 种 影响 因 
素 ,缺乏 对 其 他 变异 来 源 进行 有 效 分 离 , 因 此 容易 造成 对 误差 因素 认识 不 清 。 更 为 重要 的 
是 ,这 些 传 统 方法 无 法 根据 研究 目的 ,对 评价 中 心 的 测量 误差 实施 有 效 控制 ,不 利于 提高 测 
验 的 结构 效 度 。 可 喜 的 是 , 概 化 理论 却 可 以 很 便捷 地 分 离 评 价 中 心 的 各 种 变异 来 源 ,为 探究 
影响 评价 中 心 的 因素 提供 了 办 新 视角 。 通 过 分 析 各 种 理论 结构 , 概 化 理论 为 评价 中 心 检验 
其 结构 效 度 搭建 了 有 效 框架 , 较 好 地 解决 了 难以 分 离 评 价 中 心 各 种 效应 的 问题 ,帮助 人 们 更 
清晰 地 认识 各 种 理论 结构 因素 产生 的 变异 。 总 之 , 概 化 理论 可 应 用 于 评价 中 心 ,并 可 发 挥 出 
重要 的 作用 。 


本 章 主要 阐述 了 概 化 理论 的 基本 概念 、 分 析 过 程 及 若干 应 用 。 本 章 用 实例 讲解 了 概 化 
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理论 的 基本 原理 与 方法 ,阐明 了 不 同 研究 设计 下 如 何 分 解 概 化 理论 的 不 同 变异 来 源 。 概 化 
理论 主要 应 用 于 各 种 测评 中 ,如 表现 性 评价 、 多 源 评估 、 心 理 测验 、 结 构 化 面试 .评价 中 心 等 。 
概 化 理论 对 于 心理 测评 、 教 育 考试 、 人 事 选 拔 、 员 工 绩效 考核 和 社会 调查 统计 等 方面 的 理论 
与 实际 工作 具有 指导 价值 。 本 章 的 重点 是 理解 概 化 理论 的 基本 概念 ,难点 是 掌握 概 化 理论 
的 分 析 过 程 。 本 章 的 中 心 概念 是 “方差 分 量 估 计 ”。 


一 、 选 择 题 (不 定 项 选择 题 ,至 少 有 一 个 选项 是 正确 的 ) 
1. 研究 测量 必须 先 研究 测量 的 情境 关系 的 是 《 $ 


A. 经 典 测验 理论 B. 项 目 反 应 理论 
C. 概 化 理论 D. 认 知 诊断 理论 
2. 概 化 理论 的 D 研究 是 指 ¢ 3 
A. 概 化 研究 B. 决策 研究 
C. 交叉 研究 D. REWA 


3. 下 列 关于 概 化 理论 说 法 不 正确 的 是 ( ) 
A. 是 关于 行为 测量 可 靠 性 的 理论 
B. 属于 随机 抽样 理论 
C. 全 域 分 数 类 似 于 经 典 测验 理论 的 真 分 数 
D. 仅 应 用 于 交叉 设计 和 垦 套 设计 
4. 在 概 化 理论 中 ,测量 的 情境 关系 包括 ( ) 
A. 测量 目标 B. 测量 侧面 C. 测量 数据 D. 测量 量 表 
5. 下 列 例子 中 ,哪些 行为 测量 解释 的 是 概 化 理论 的 相对 决策 ? ( ) 
A, 通过 某 个 考试 ,需要 做 对 70% 的 题目 
B. 某 农场 保险 公司 对 25 个 应 聘 者 实施 了 一 个 文字 处 理 测验 ,前 5 名 可 以 获得 职位 
C. 一 个 含有 10 个 题目 的 测验 被 用 于 决定 是 否 一 个 学 生 人 掌握 了 数学 课程 的 一 个 单元 
D. 5 个 裁判 在 六 点 量 表 上 评定 10 个 女 运动 员 的 运动 能 力 , 并 考虑 她 们 是 否 能 够 参 
加 冬季 奥运 会 ,其 中 ,3 个 得 分 最 高 的 才能 获得 资格 与 美国 队 同 台 竞争 
6. 测量 侧面 对 应 的 总 体 是 4 ) 
A. 可 人 允 观 测 全 域 B. 测量 总 体 C. 测量 条 件 D. 概 化 全 域 
. 在 概 化 理论 中 ,对 于 pXi 设 计 , 下 列 关 系 式 正确 的 是 ¢ 3 


= 


A. SSreui=SS,+SS, B. SSrou=SS,+SS; +SS,; 
C. SSrou=SS,+SS,+SS,.. D. SSroa=SS,+SS,+SS, 

8. 可 以 用 来 表示 概 化 理论 绝对 决策 的 指标 是 ( ) 
A. G 系数 B. 由 指数 C. K 指数 D. a 系数 


9. 概 化 理论 把 测量 侧面 分 为 ( ) 
A. 随机 侧面 B. 固定 侧面 C. 混合 侧面 D. 无 限 侧 面 

10. 概 化 理论 研究 设计 包括 ( ) 
A. 交叉 设计 B. RBRIt C. 混合 设计 D. 拉丁 方 设计 
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11. 在 D 研 究 中 ,所 涉及 的 条 件 全 域 是 ( ) 
A. 可 允 观 测 全 域 B. 概 化 全 域 
C. 侧面 全 域 D. 目标 全 域 
二 、 简 答题 


1. 简 述 概 化 理论 的 分 析 过 程 。 

2. 简 述 概 化 理论 G 研究 与 D 研究 的 关系 。 

3. 简 述 概 化 理论 的 若干 应 用 。 

三 、 分 析 题 

1. 4 个 来 自 听 障 学 校 的 评价 者 (r) ,在 40 个 技能 (s) 上 对 30 位 特殊 教师 (0 进行 评定 ,这 
40 个 技能 被 认为 是 对 训练 听 障 学 生 至 关 重 要 的 。 据 此 ,回答 以 下 问题 。 

(1) 列举 变异 的 来 源 , 鉴 别 测量 目标 和 测量 侧面 。 

(2) 这 个 研究 的 设计 是 什么 ? 

(3) 列举 这 个 设计 相关 的 方差 分 量 。 

2. 在 一 项 关于 海军 军人 步兵 的 研究 中 ,43 个 步兵 (p) 在 三 个 场合 (0) 被 两 个 评价 者 (r) 
观察 他 们 组 装 通 信 装 置 的 情况 。 不 同 的 评价 者 在 不 同 的 场合 评定 步兵 的 表现 ,但 所 有 的 步 
兵 需 要 到 访 所 有 场合 完成 任务 ,其 G 研究 部 分 结果 列 于 表 11- 13 中 。 据 此 ,回答 以 下 问题 。 

(1) 这 个 研究 的 设计 是 什么 ? 

(2) 列 出 这 个 设计 的 期 望 均 方 。 

G) 根据 表 11-13 的 G 研究 部 分 结果 ,计算 和 解释 估计 的 方差 分 量 。 


表 11-13 海军 军人 步兵 研究 G 研究 部 分 结果 


变异 来 源 平方 和 自由 度 均 方 
步兵 (p) 4.090 8 42 0.097 4 
场合 (0) 1.360 6 2 0. 680 3 
评价 者 : 场合 (r : o) 0.213 9 3 0.071 3 
po 1.881 6 84 0. 022 4 
pr» prose 1.955 8 127 0.015 4 
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一 、 心 理 测验 管理 条 例 
(中 国 心理 学 会 ,2015. 05) 


第 一 章 总 y 


第 1 条 为 促进 中 国 心理 测验 的 研发 与 应 用 ,加 强 心 理 测验 的 规范 管理 ,根据 国家 有 关 
法 律 法 规制 定 本 条 例 。 

第 2 条 心理 测验 是 指 测量 和 评估 心理 特征 (特质 ) 及 其 发 展 水 平 , 用 于 研究 教育、 培 
训 、 和 咨询、 诊断, 矫治. 干预, 选拔、 安置 ,任免 .就 业 指 导 等 方面 的 测量 工具 。 

第 3 条 ” 凡 从 事 心理 测验 的 研制 ,修订 使用、 发 行 、 销 售 及 使 用 人 员 培 训 的 个 人 或 机 构 
都 应 遵守 本 条 例 以 及 中 国 心理 学 会 (心理 测验 工作 者 职业 道德 规范 ) 的 规定 ,有 责任 维护 心 
理 测 验 工 作 的 健康 发 展 。 

第 4 条 中 国 心理 学 会 授权 其 下 属 的 心理 测量 专业 委员 会 负责 心理 测验 的 登记 和 鉴 
定 , 负 责 心理 测验 使 用 资格 证 书 的 颁发 和 管理 ,负责 心理 测验 发 行 .出 售 和 培训 机 构 的 资质 
认证 。 

第 二 章 “心理 测验 的 登记 


第 5 条 凡 个 人 或 机 构 编制 或 修订 完成 ,用 以 研究 .测评 服务 .出 版 ,发 行 与 销售 的 心理 
测验 ,都 应 到 中 国 心理 学 会 心理 测量 专业 委员 会 申请 登记 。 

第 6 条 登记 是 心理 测验 的 编制 者 .修订 者 ,版 权 持 有 者 或 其 代理 人 到 中 国 心理 学 会 心 
理 测量 专业 委员 会 就 其 测验 的 名 称 、 编 制 者 (修订 者 )、 版 权 持 有 者 \ 测 量 目标 、 适 用 对 象 、 测 
验 结构 .示范 性 项 目 、 信 度 、 效 度 等 内 容 巴 以 申报 .中国 心理 学 会 心理 测量 专业 委员 会 按照 申 
报 内 容 备案 存档 并 予以 公示 。 心 理 测验 登记 的 申请 者 应 当 向 中 国 心理 学 会 心理 测量 专业 委 
员 会 提供 测验 的 完整 材料 。 

第 7 条 测验 登记 的 申请 者 必须 确保 所 登记 的 测验 不 存在 版 权 争议 。 凡 修订 的 心理 测 
验 必须 提交 测验 原版 权 所 有 者 的 书面 授权 证 明 。 

第 8 条 中 国 心理 学 会 心理 测量 专业 委员 会 在 收 到 登记 申请 后 ,将 申请 登记 的 测验 在 
中 国 心理 学 会 心理 测量 分 会 的 有 关 刊 物 和 网 站 上 公示 3 个 月 (条 件 具 备 时 同时 在 相关 学 术 
刊物 公示 )。3 个 月 内 无 人 对 版 权 提 出 异议 的 , 视 为 不 存在 版 权 争议 ;有 人 提出 版 权 异议 的 ， 
责成 申请 者 提交 补充 证 明 材料 ,并 重新 公示 (公示 期 重新 计算 )。 

第 9 条 ”公示 的 测验 内 容 包括 但 不 限于 测验 的 名 称 、 编 制 者 (修订 者 )、 版 权 所 有 者 、 测 
量 目 标 、 适 用 对 象 、 结 构 ,示范 性 项 目 、 信 度 和 效 度 。 

第 10 条 ”对 申请 登记 的 测验 提出 版 权 异 议 需要 提供 有 效 证 明 材料 。1 个 月 内 不 能 提供 
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有 效 证 明 材 料 的 版 权 异议 不 对 采 纳 。 
第 11 条 ”中国 心理 学 会 心理 测量 专业 委员 会 只 对 登记 内 容 齐 备 、 能 够 有 效 使 用 ,没有 
版 权 争 议 的 心理 测验 提供 登记 。 凡 经 过 登记 的 心理 测验 , 均 给 予 统一 的 分 类 编号 。 


第 三 章 心理 测验 的 鉴定 


第 12 条 心理 测验 的 鉴定 是 指 由 中 国 心理 学 会 心理 测量 专业 委员 会 指定 的 专家 小 组 
遵循 严格 的 认证 审核 程序 对 测验 的 科学 性 有 效 性 及 其 信息 的 真实 性 进行 审核 验证 的 过 程 。 

第 13 条 心理 测验 只 有 获得 登记 才能 申请 鉴定 。 中 国 心理 学 会 心理 测量 专业 委员 会 
只 对 没有 版 权 争议 .经 过 登记 的 心理 测验 进行 鉴定 ,只 认可 经 科学 程序 开发 且 具 有 充分 科学 
证 据 的 心理 测验 。 

第 14 条 ”中 国 心理 学 会 心理 测量 专业 委员 会 每 年 受理 两 次 测验 鉴定 的 申请 。 

第 15 条 ”鉴定 申请 材料 包括 但 不 限于 以 下 内 容 : 测验 (工具 )、 测 验 手 册 ( 用 户 手 册 和 
技术 手册 ) 、 计 分 方法 、 测 验 科学 性 证 明 材 料 、 信 效 度 等 研究 的 原始 数据 \ 测 试 结果 报告 案例 、 
信息 函数 、 题 目 参数 ,测验 设计 ,等 值 设 计 、 题 库 特 征 等 内 容 资料 。 

第 16 条 ”对 不 存在 版 权 争 议 的 测验 ,中 国 心理 学 会 心理 测量 专业 委员 会 组 织 专家 在 3 
个 月 内 完成 鉴定 。 

第 17 条 鉴定 工作 程序 包括 初审 、 匿 名 评审 .公开 质证 和 结论 审议 4 个 环节 。 

(1) 初审 主要 审核 鉴定 申请 材料 的 完备 程度 和 是 否 存在 版 权 争 议 。 

(2) 初审 符合 要 求 后 进入 匿名 评审 。 匿 名 评审 按 通 信 方 式 进行 。 参 加 匿名 评审 的 专家 
有 5 名 (或 以 上 ) ,每 个 专家 都 要 独立 出 具 是 否 同意 鉴定 的 书面 评审 意见 。 无 论 鉴定 是 否 通 
过 ,参与 匿名 评审 专家 的 名 单 均 不 予以 公开 ,专家 本 人 也 不 得 向 外 泄露 。 

(3) 匿名 评审 通过 后 进入 公开 质证 ,由 鉴定 申请 者 方面 向 鉴定 专家 小 组 说 明 测 验 的 理 
论 依据 、 编 修 或 开发 过 程 ` 相 关 研 究 和 实际 应 用 等 情况 ,回答 鉴定 专家 小 组 成 员 以 及 旁听 人 
员 对 测验 科学 性 的 质询 。 鉴 定 专家 小 组 由 5 名 以 上 专家 组 成 ,成 员 由 中 国 心理 学 会 心理 测 
量 专业 委员 会 聘任 或 指定 。 

(4) 公开 质证 结束 后 进入 结论 审议 。 鉴 定 专家 小 组 闭 门 讨论 ,以 无 记名 方式 投票 表决 ， 
对 测验 做 出 科学 性 评级 。 科 学 性 评级 分 为 A 级 (科学 性 证 据 丰 富 ,推荐 使 用 ) 、.B 级 (科学 性 
证 据 基 本 符合 要 求 ,可 以 使 用 ) .C 级 (科学 性 证 据 不 足 , 有 待 完善 ) 。 

第 18 条 为 保证 测验 鉴定 的 公正 性 ,规定 如 下 : 

(1) 测验 的 编制 者 ,修订 者 和 鉴定 申请 者 不 得 担任 鉴定 专家 ,也 不 得 指定 鉴定 专家 ; 

(2) 为 所 鉴定 测验 的 科学 性 和 信息 真实 性 提供 主要 证 据 的 研究 者 或 者 证 明 人 不 得 担任 
鉴定 专家 ; 

(3) 参加 鉴定 的 专家 应 主动 回避 直系 亲属 及 其 他 可 能 影响 公正 性 的 测验 鉴定 ; 

(4) 参与 鉴定 的 专家 应 自觉 维护 测验 评审 工作 的 科学 性 和 公正 性 ,评审 时 只 代表 自己 ， 
不 代表 所 在 部 门 和 单位 。 

第 19 条 ”为 切实 保护 鉴定 申请 者 和 鉴定 参与 者 的 权益 ,参加 鉴定 和 评审 工作 的 所 有 人 
员 均 须 遵守 以 下 规定 : 

(1) 不 得 擅自 复制 泄露 或 以 任何 形式 简 穷 鉴定 申请 者 提交 的 测验 材料 ; 

(2) 不 得 泄露 评审 或 鉴定 专家 的 姓名 和 单位 ; 
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(3) 不 得 泄露 评审 或 鉴定 的 进展 情况 和 未 经 批准 和 公布 的 鉴定 或 评审 结果 。 
第 20 条 对 于 已 经 通过 鉴定 的 心理 测验 ,中 国 心 理学 会 心理 测量 专业 委员 会 颁发 相应 
级 别 的 证 书 。 


SOR ”测验 使 用 人 员 的 资格 认定 


第 21 条 使 用 心理 测验 从 事 职业 性 的 或 商业 性 的 服务 ,测验 结果 用 于 教育 .培训 、 咨 
询 .诊断 ,矫治 干预. 选拔、 安置、 任免 .指导 等 用 途 的 人 员 ,应 当 取 得 测验 的 使 用 资格 。 

第 22 条 测验 使 用 人 员 的 资格 证 书 分 为 甲 . 乙 ` 丙 三 种 。 甲 种 证 书 仅 授予 主要 从 事 心 
理 测量 研究 与 教学 工作 的 高 级 专业 人 员 , 持 此 种 证 书 者 具有 心理 测验 的 培训 资格 。 乙 种 证 
书 授予 经 过 心理 测量 系统 理论 培训 并 通过 考试 ,具有 一 定 使 用 经 验 的 人 。 丙 种 证 书 为 特定 
心理 测验 的 使 用 资格 证 书 ,此 种 证 书 需 注 明 所 培训 使 用 的 测验 名 称 , 只 证 明 持 有 者 具有 使 用 
该 测验 的 资格 。 

第 23 条 申请 获得 甲 种 证 书 应 具有 副 高 以 上 职称 和 5 年 以 上 心理 测验 实践 经 验 , 需 由 
本 人 提出 申请 ,经 2 名 心理 学 教授 推荐 ,由 中 国 心理 学 会 心理 测量 专业 委员 会 统一 审查 
核发 。 

第 24 条 申请 获得 乙 种 和 丙种 证 书 需 满足 以 下 条 件 之 一 : 

(1) 心理 专业 本 科 以 上 毕业 ; 

D 具有 大 专 以 上 ( 含 ) 学 历 ,接受 过 中 国 心理 学 会 心理 测量 专业 委员 会 备案 并 认可 的 
心理 测量 培训 班 培训 , 且 考 核 合格 。 

第 25 条 ”心理 测验 使 用 资格 证 书 有 效 期 为 4 年。4 年 期 满 无 滥用 或 误 用 测验 记录 ,有 
持续 从 事 心 理 测验 研究 或 应 用 的 证 明 ( 如 论文 .被 测 者 承认 的 测试 结果 报告 ,或 测量 专家 的 
证 明 ), 或 经 不 少 于 8 个 小 时 的 再 培训 ,予以 重新 核发 。 

第 26 条 中国 心 理学 会 心理 测量 专业 委员 会 对 获得 心理 测验 使 用 资格 的 人 颁发 相应 
的 证 书 。 


SER ”测验 使 用 人 员 的 培训 


第 27 条 为 取得 心理 测验 使 用 资格 证 书 举办 的 培训 ,必须 包括 有 关 测 验 的 理论 基础 、 
操作 方法 、 记 分 .结果 解释 和 防止 其 滥用 或 误 用 的 注意 事项 等 内 容 ,安排 必 要 的 操作 练习 ,并 
进行 严格 的 考核 ,确保 培训 质量 。 学 员 通 过 考核 方 能 颁发 心理 测验 使 用 资格 证 书 。 

第 28 条 ”在 心理 测验 培训 中 ,应 将 中 国 心理 学 会 心理 测量 专业 委员 会 颁布 的 心理 测验 
管理 条 例 与 心理 测验 工作 者 职业 道德 规范 纳入 培训 内 容 。 

第 29 条 培训 班 所 讲授 的 测验 应 当 经 过 登记 和 鉴定 。 为 尊重 和 保护 测验 编制 者 、 修 订 
者 或 版 权 拥有 者 的 权益 ,培训 班 所 讲授 的 测验 应 得 到 测验 版 权 所 有 者 的 授权 。 

第 30 条 培训 班 授课 者 应 持 有 心理 测验 甲 种 证 书 (讲授 自己 编制 的 .已 通过 登记 和 鉴 
定 的 测验 除外 ) 。 

第 31 条 中 国 心理 学 会 心理 测量 专业 委员 会 对 心理 测验 使 用 资格 的 培训 机 构 进 行 资 
质 认证 ,并 对 培训 质量 进行 监控 管理 。 

第 32 条 通过 资质 认证 的 培训 机 构 举办 心理 测量 培训 班 需 到 中 国 心理 学 会 心理 测量 
专业 委员 会 申报 登记 ,并 将 培训 对 象 、. 培 训 内 容 、. 课 时 安排 ,考核 方法 ,收费 标准 与 详细 培训 
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计划 及 授课 人 的 基本 情况 上 报 备案 。 中 国 心理 学 会 坚决 反对 不 具有 培训 资质 的 培训 机 构 或 
者 个 人 举办 心理 测验 使 用 培训 。 

第 33 条 ”培训 的 举办 者 有 责任 对 培训 人 员 的 资质 情况 进行 审核 。 

第 34 条 培训 中 应 严格 考勤 。 学 员 因 故 缺席 培训 超过 1/3 以 上 学 时 的 ,或 者 未 能 参加 
考核 的 ,不 得 颁发 资格 证 书 。 

第 35 条 培训 结束 后 ,主办 单位 应 将 考勤 表 、 试 题 及 学 员 考 核 成 绩 等 培训 情况 报 中 国 
心理 学 会 备案 。 凡 通过 考核 的 学 员 需 填写 心理 测量 人 员 登 记 表 。 

第 36 条 中 国 心理 学 会 心理 测量 专业 委员 会 建立 心理 测验 专业 人 员 档 案 库 , 对 获得 心 
理 测验 使 用 资格 者 和 专家 证 书 者 进行 统一 管理 。 凡 参加 中 国 心理 学 会 心理 测量 专业 委员 会 
审批 认可 的 心理 测量 培训 班 学 习 并 通过 考核 者 , 均 予 颁发 心理 测验 使 用 资格 证 书 , 列 入 中 国 
心理 学 会 心理 测量 专业 委员 会 专业 心理 测验 人 员 库 。 


AH ”测验 的 控制 使 用 与 保管 


第 37 条 经 登记 和 鉴定 的 心理 测验 只 限 具有 测验 使 用 资格 者 购买 和 使 用 。 未 经 登记 
和 鉴定 的 心理 测验 中 国 心理 学 会 心理 测量 专业 委员 会 不 予以 推荐 使 用 。 

第 38 条 为 保护 测验 开发 者 的 权益 ,防止 心理 测验 的 误 用 与 滥用 ,任何 机 构 或 个 人 不 
得 出 售 没有 得 到 版 权 或 代理 权 的 心理 测验 。 

第 39 条 凡 个 人 和 机 构 在 修订 与 出 售 他 人 拥有 版 权 的 心理 测验 时 ,必须 首先 征 得 该 测 
验 版 权 所 有 者 的 同意 ; 印 制 、 出 版 ,发行 与 出 售 心理 测验 器 材 的 机 构 应 该 到 中 国 心理 学 会 心 
理 测量 专业 委员 会 登记 备案 ,并 只 能 将 测验 器 材 售 了 予 具有 测验 使 用 资格 者 ;未 经 版 权 所 有 者 
授权 任何 网 站 都 不 能 使 用 标准 化 的 心理 量 表 , 不 得 制作 出 售 任何 心理 测验 的 有 关 软 件 。 

第 40 条 ”任何 心理 测验 必须 明确 规定 其 测验 的 使 用 范围 .实施 程序 以 及 测验 使 用 者 的 
资格 ,并 在 该 测验 手册 中 予以 详尽 描述 。 

第 41 条 具有 测验 使 用 资格 者 ,可 和 凭 测验 使 用 资格 证 书 购 买 和 使 用 相应 的 心理 测验 器 
材 , 并 负责 对 测验 器 材 的 妥善 保管 。 

第 42 条 测验 使 用 者 应 严格 按照 测验 指导 手册 的 规定 使 用 测验 。 在 使 用 心理 测验 结 
果 作 为 诊断 或 取舍 等 重要 决策 的 参考 依据 时 ,测验 使 用 者 必须 选择 适当 的 测验 ,并 确保 测验 
结果 的 可 靠 性 。 测 验 使 用 的 记录 及 书面 报告 应 妥善 保存 3 年 以 备 检查 。 

第 43 条 测验 使 用 者 必须 严格 按 测 验 指导 手册 的 规定 使 用 测验 。 在 使 用 心理 测验 结 
果 作为 重要 决策 的 参考 依据 时 ,应当 考 虑 测验 的 局 限 性 。 

SAA A 个 人 的 测验 结果 应 当 严格 保密 。 心 理 测验 结果 的 使 用 须 尊 重 测验 被 测 者 的 权益 。 


第 七 章 Mo w 


第 45 条 ”对 于 已 经 通过 登记 和 鉴定 的 心理 测验 ,中 国 心理 学 会 心理 测量 专业 委员 会 协 
助 版 权 所 有 者 保护 其 相关 权益 。 

第 46 条 中 国 心理 学 会 心理 测量 专业 委员 会 对 心理 测验 进行 日 常 管理 。 为 方便 心理 
测验 的 日 常 管理 和 网 络 维护 ,对 测验 的 登记 、 鉴 定 、 资 格 认定 和 资质 认证 等 项 服务 适当 收费 ， 
制定 统一 的 收费 标准 。 

第 47 条 测验 开发 .登记 ,鉴定 和 管理 中 凡 涉 及 国家 保密 、 知 识 产 权 和 测验 档案 管理 等 
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问题 , 按 国家 和 中 国 心理 学 会 有 关 规 定 执行 。 

第 48 条 ”中 国 心理 学 会 对 违背 科学 道德 违反 心理 测验 管理 条 例 、 违 背 ( 心 理 测验 工作 
者 道德 准则 》 和 有 关 规 定 的 人 员 或 机 构 , 视 情节 轻重 分 别 采 取 警 告 公 告 批评 、 取 消 资格 等 处 
理 措施 ,对 造成 中 国 心理 学 会 权益 损害 的 保留 予以 法 律 追 究 的 权力 。 

第 49 条 ”本 条 例 自 中 国 心理 学 会 批准 之 日 起 生效 ,其 修订 与 解释 权 归 中 国 心理 学 会 心 
理 测量 专业 委员 会 。 


二 、 心 理 测验 工作 者 职业 道德 规范 
(中 国 心理 学 会 ,2015. 05) 


凡 以 使 用 心理 测验 进行 研究 诊断、 安置 教育. 培训、 矫治 ,发 展 . 干 预选 拔 、 咨 询 、 就 业 
指导 ,鉴定 等 工作 为 主 的 人 ,都 是 心理 测验 工作 者 。 心 理 测验 工作 者 应 意识 到 自己 承担 的 社 
会 责任 ,恪守 科学 精神 ,遵循 下 列 职 业 道德 规范 。 

第 1 条 心理 测验 工作 者 应 遵守 《心理 测验 管理 条 例 》, 自 觉 防止 和 制止 测验 的 滥用 和 误 用 。 

第 2 条 心理 测验 工作 者 必须 具备 中 国 心理 学 会 心理 测量 专业 委员 会 认可 的 心理 测验 
使 用 资格 。 

第 3 条 ”中 国 心理 学 会 坚决 反对 不 具有 心理 测验 使 用 资格 的 人 使 用 心理 测验 ;反对 使 
用 未 经 注册 或 鉴定 的 测验 ,除非 这 种 使 用 出 于 研究 目的 或 者 是 在 具有 心理 测验 使 用 资格 的 
人 监督 下 进行 。 

第 4 条 心理 测验 工作 者 应 使 用 心理 测量 学 品质 好 的 心理 测验 。 

第 5 条 心理 测验 工作 者 有 义务 向 受 测 者 解释 使 用 测验 的 性 质 和 目的 ,充分 尊重 受 测 
者 的 知情 权 。 

第 6 条 使 用 心理 测验 需要 充分 考虑 测验 结果 的 局 限 性 和 可 能 的 偏差 ,谨慎 解释 测验 
的 结果 和 效能 , 既 要 考虑 测验 的 目的 ,也 要 考虑 影响 测验 结果 和 效能 的 多 方面 因素 ,如 环境 、 
语言 文化. 受 测 者 个 人 特征 、 状 态 等 。 

第 7 条 应 以 正确 的 方式 将 测验 结果 告知 受 测 者 。 应 充分 考虑 到 测验 结果 可 能 造成 的 
伤害 和 不 良 后 果 ,保护 受 测 者 或 相关 人 免 受伤 害 。 

第 8 条 评分 和 解释 要 采取 合理 的 步骤 确保 受 测 者 得 到 真实 准确 的 信息 ,避免 做 出 无 
充分 根据 的 断言 。 

第 9 条 应 诚实 守信 ,保证 依 专业 的 标准 使 用 测验 ,不 得 因为 经 济 利益 或 其 他 任何 原 
编造 和 修改 数据 、 自 改 测验 结果 或 降低 专业 标准 。 

第 10 条 开发 心理 测验 和 其 他 测评 技术 或 测评 工具 ,应 该 经 由 经 得 起 科学 检验 的 心理 
测量 学 程序 ,取得 有 效 的 常 模 或 临界 分 数 、 信 度 、 效 度 资料 ,尽力 消除 测验 偏差 ,并 提供 测验 
正确 使 用 的 说 明 。 

第 11 条 为 维护 心理 测验 的 有 效 性 , 凡 规定 不 宜 公 开 的 心理 测验 内 容 如 评分 标准 、 常 
模 、 临 界 分 数 等 , 均 应 保密 。 

第 12 条 心理 测验 工作 者 应 确保 通过 测验 获得 的 个 人 信息 和 测验 结果 的 保密 性 , 仅 在 
可 能 发 生 危 害 受 测 者 本 人 或 社会 的 情况 时 才能 告知 有 关 方 面 。 

第 13 条 本 条 例 自 中 国 心理 学 会 批准 之 日 起 生效 ,其 修订 与 解释 权 归 中 国 心理 学 会 心 
理 测量 专业 委员 会 。 


227 


228 


OZ 


正 态 分 布 表 : 标准 分 数 Z、 纵 高 了 与 曲线 下 面积 己 转换 关系 


Z x P Z Y P Zz ¥ iP 
0. 00 0.39894 0.00000 0. 30 0.38139 0.11791 0. 60 0.33322 0.22575 
0. 01 0.39892 0.003 99 0.31 0.38023 0.12172 0.61 0.33121 0.22907 
0.02 0.39886 0.007 98 0. 32 0.37903 0.12552 0. 62 0.32918 0. 232 37 
0. 03 0.39876 0.01197 0. 33 0.37780 0.12930 0. 63 0.32713 0.23565 
0. 04 0.39862 0.01595 0. 34 0.37654 0,133 07 0. 64 0.32506 0.23891 
0. 05 0.39844 0.01994 0.35 0.375 24 0. 136 83 0.65 0.32297 0.24215 
0. 06 0.398 22 0.023 92 0. 36 0.37391 0.14058 0. 66 0.32086 0.245 37 
0.07 0.39797 0.02790 0. 37 0.37255 0.14431 0. 67 0.31874 0,248 57 
0. 08 0.39767 0.031 88 0. 38 0.37115 0. 148 03 0. 68 0.31659 0,251 75 
0. 09 0.397 33 0.035 86 0. 39 0.36973 0.15173 0.69 0.31443 0.25490 
0.10 0.39695 0.039 83 0. 40 0.36827 0.155 42 0. 70 0.31225 0.258 04 
0.11 0.39654 0.043 80 0.41 0.36678 0.15910 0.71 0.31006 0.26115 
0. 12 0.39608 0.04776 0. 42 0.36526 0.16276 0.72 0.30785 0, 264 24 
0.13 0.39559 0.05172 0. 43 0.36371 0.16640 0.73 0.30563 0.267 30 
0.14 0.39505 0.05567 0. 44 0.36213 0.17003 0.74 0.30339 0.27035 
0.15 0.39448 0.05962 0.45 0.36053 0.173 64 0.75 0.30114 0.273 37 
0.16 0.39387 0.063 56 0. 46 0.35889 0.17724 0.76 0.29887 0.276 37 
0.17 0.39322 0.06749 0.47 0.35723 0. 180 82 0.77 0.29659 0,279 35 
0.18 0.39253 0.07142 0. 48 0.35553 0.18439 0.78 0.29431 0. 282 30 
0.19 0.39181 0.07535 0.49 0.35381 0.187 93 0.79 0.29200 0.285 24 
0. 20 0.39104 0.079 26 0.50 0.35207 0.19146 0. 80 0.28969 0.288 14 
0, 21 0.39024 0.08317 0.51 0.35029 0.194 97 0.81 0.28737 0.291 03 
0. 22 0.38940 0.087 06 0.52 0.34849 0.19847 0. 82 0.28504 0.293 89 
0, 23 0.38853 0.09095 0. 53 0.34667 0.20194 0. 83 0.28269 0,296 73 
0. 24 0.38762 0.094 83 0. 54 0.34482 0.205 40 0. 84 0.28034 0. 299 55 
0. 25 0.38667 0.09871 0.55 0.34294 0.208 84 0. 85 0.27798 0.302 34 
0. 26 0.38568 0.10257 0. 56 0.34105 0.21226 0. 86 0.27562 0.30511 
0. 27 0.38466 0.106 42 0.57 0.33912 0.215 66 0. 87 0.27324 0.307 85 
0. 28 0.38361 0.110 26 0. 58 0.33718 0.219 04 0. 88 0.27986 0.31057 
0. 29 0.38251 0.11409 0.59 0.33521 0.22240 0. 89 0.28848 0.313 27 


附 k 
附 表 续 
zZ ¥ P Zz Y P FA 4 P 
0. 90 0.26609 0.315 94 1.30 0.17137 0.403 20 1.70 0.09405 0.455 43 
0. 91 0.26369 0.31859 1.31 0.16915 0.40490 1.71 0.09246 0.456 37 
0. 92 0.26129 0.32121 1.32 0.16694 0.406 58 1.72 0.09089 0.457 28 
0. 93 0.25888 0.32381 1.33 0.16474 0.408 24 1.73 0.08933 0.458 18 
0. 94 0.25647 0.32639 1.34 0.16256 0.40988 1.74 0.08780 0.45907 
0.95 0.25406 0.328 94 1.35 0.16038 0.41149 1.75 0.08628 0.45994 
0. 96 0.25164 0.33147 1.36 0.15822 0.41309 1.76 0.08478 0.460 80 
0.97 0.24923 0, 333 98 1.37 0.15608 0.414 66 1.77 0.08329 0.461 64 
0. 98 0.246 81 0. 336 46 1.38 0.15395 0.416 21 1.78 0.08183 0. 462 46 
0. 99 0.24439 0.33891 1.39 0.15183 0.41774 1.79 0.08038 0.46327 
1. 00 0.24197 0.341 34 1.40 0.14973 0.419 24 1.80 0.07895 0.46407 
1.01 0.23955 0.34375 1.41 0.14764 0.42073 1.81 0.07754 0.464 85 
1.02 0.23713 0.34614 1.42 0.14556 0.42220 1.82 0.07614 0.465 62 
1.03 0.23471 0.34850 1.43 0.14350 0.423 64 1.83 0.07477 0. 466 38 
1.04 0.23230 0.35083 1.44 0.14146 0.42507 1.84 0.07341 0.46712 
1.05 0.22988 0.35314 1.45 0.13943 0.426 47 1.85 0.07206 0.467 84 
1.06 0.22747 0.35543 1.46 0.13742 0.42786 1.86 0.07074 0.468 56 
1.07 0.22506 0.357 69 1.47 0.13542 0.42922 1.87 0.06943 0. 489 26 
1. 08 0.22265 0.35993 1.48 0.13344 0.43056 1.88 0.06814 0.46995 
1.09 0.22025 0.36214 1.49 0.13147 0.43189 1.89 0.06687 0.470 62 
1.10 0.21785 0.364 33 1.50 0.12952 0.43319 1.90 0.06562 0.471 28 
1.11 0.21546 0.36650 1.51 0.12758 0.434 48 1.91 0.06439 0.471 93 
1.12 0.21307 0.368 64 1.52 0.12566 0.43574 1.92 0.06316 0.47257 
1.13 0.21069 0.37076 1.53 0.12376 0.43699 1.93 0.06195 0.473 20 
1.14 0.20831 0.37286 1.54 0.12188 0.43822 1.94 0.06077 0.473 81 
1.15 0.20594 0.37493 1.55 0.12001 0.439 43 1.95 0.05959 0.47441 
1.16 0.20357 0.37698 1.56 0.11816 0,440 62 1.96 0.05844 0.475 00 
1.17 0.20121 0.37900 1.57 0.11632 0.44179 1.97 0.05730 0.475 58 
1.18 0.19886 0.38100 1.58 0.11450 0.44295 1.98 0.05618 0.47615 
1.19 0.19652 0,382 98 1.59 0.11270 0.444 08 1.99 0.05508 0.47670 
1. 20 0.19419 0.384 93 1. 60 0.11092 0.445 20 2.00 0.05399 0.477 25 
1.21 0.19186 0.386 86 1.61 0.10915 0.446 30 2.01 0.02592 0.47778 
1. 22 0.18954 0.38877 1.62 0.10741 0.447 38 2.02 0.05186 0.47831 
1.23 0.18724 0.39065 1. 63 0.10567 0.44845 2.03 0.05082 0.478 82 
1. 24 0.18494 0.39251 1.64 0.10396 0.44950 2.04 0.04980 0.479 82 
1.25 0.18265 0.39435 1.65 0.10226 0.45053 2.05 0.04879 0.479 82 
1.26 0.18037 0.39617 1.66 0.10059 0.45154 2.06 0.04780 0.480 30 
1.27 0.17810 0.397 96 1.67 0.09893 0.45254 2.07 0.04682 0.48077 
1. 28 0.17585 0.39973 1. 68 0.09728 0.45352 2.08 0.04586 0.48124 
1.29 0.17360 0.40147 1.69 0.09566 0.45449 2.09 0.04491 0.481 69 
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测 量 
附 表 续 
Zz ¥ P zZ g P Z ¥ P 
2.10 0.04398 0.48214 2.50 0.01753 0.49379 2.90 0.00525 0.498 13 
2.11 0.04307 0,482 57 2.51 0.01709 0.493 96 2.91 0.00578 0.49819 
2.12 0.04217 0.48300 2.52 0.01667 0.49413 2.92 0.00562 0,498 25 
2.13 0.04128 0.48341 2.53 0.01625 0.494 30 2.93 0.00545 0.498 31 
2.14 0.04041 0.48382 2.54 0.01585 0.49446 2.94 0.005 30 0. 498 36 
2.15 0.03955 0,484 22 2.55 0.01545 0.49461 2.95 0.00514 0.498 41 
2.16 0.03871 0.48461 2.56 0.01506 0.49477 2.96 0.00499 0.498 46 
2.17 0.03788 0.48500 2.57 0.01468 0.49492 2.97 0.00485 0.49851 
2.18 0.03706 0.48537 2.58 0.01431 0.495 06 2.98 0.00471 0.498 56 
2.19 0.03626 0.485 74 2.59 0.01394 0.495 20 2.99 0.00457 0.498 61 
2. 20 0.03547 0.48610 2.60 0.01358 0.495 34 3. 00 0.00443 0.498 65 
2.21 0.03470 0.48645 2.61 0.01323 0.49547 3.01 0.00430 0.498 69 
2.22 0.03394 0.48679 2.62 0.01289 0.495 60 3.02 0.00417 0.498 74 
2. 23 0.03319 0.487 13 2.63 0.01256 0.49573 3.03 0.00405 0.498 78 
2. 24 0.03246 0.48745 2.64 0.01223 0.49585 3.04 0.00393 0.498 82 
2.25 0.03174 0.48778 2.65 0.01191 0.495 98 3.05 0.00381 0.498 86 
2. 26 0.03103 0.48809 2.66 0.01160 0.49609 3.06 0.00370 0.498 89 
2.27 0.030 34 0. 488 40 2.67 0.01130 0.496 21 3.07 0.00358 0.498 93 
2. 28 0.02965 0.48870 2.68 0.01100 0.496 32 3.08 0.00348 0.498 97 
2.29 0.02898 0.48899 2.69 0.01071 0.496 43 3.09 0.00337 0.499 00 
2. 30 0.02833 0.489 28 2.70 0.01042 0.49653 3.10 0.00327 0.499 03 
2.31 0.02768 0.48956 2.71 0.01014 0.496 64 3.11 0.00317 0.499 06 
2.32 0.02705 0.489 83 2.72 0.00987 0.496 74 3.12 0.00307 0.49910 
2.33 0.02643 0.49010 2.73 0.00961 0.496 83 3.13 0.00298 0.49913 
2. 34 0.025 82 0.490 36 2.74 0.00935 0.496 93 3.14 0.00288 0.49916 
2.35 0.02522 0.49061 2.75 0.00909 0.49702 3.15 0.00279 0.499 18 
2. 36 0.02463 0.490 86 2.76 0.00885 0.49711 3.16 0.00271 0.49921 
2. 37 0.02406 0.49111 2.77 0.00861 0.497 20 3.17 0.00262 0,499 24 
2. 38 0.02349 0.49134 2.78 0.00837 0.497 28 3.18 0.00254 0.499 26 
2. 39 0.02294 0.49158 2.79 0.00814 0.497 36 3.19 0.00246 0.499 29 
2.40 0.02239 0.491 80 2. 80 0.00792 0.497 44 3.20 0.00238 0.49931 
2.41 0.02186 0.49202 2.81 0.00770 0.49752 3.21 0.00231 0.499 34 
2.42 0.02134 0,492 24 2. 82 0.00748 0.497 60 3.22 0.00224 0.499 36 
2.43 0.02083 0.49245 2,83 0.00727 0.497 67 3.23 0.00216 0.499 38 
2.44 0.02033 0.492 66 2. 84 0.00707 0.497 74 3.24 0.00210 0.499 40 
2.45 0.01984 0.492 86 2.85 0.00687 0.49781 3.25 0.00203 0.499 42 
2.46 0.01936 0.49305 2. 86 0.00668 0.497 88 3.26 0.00196 0.499 44 
2.47 0.01889 0.493 24 2.87 0.00649 0.49795 3.27 0.00190 0.499 46 
2.48 0.01842 0.493 43 2.88 0.006 31 0.49801 3. 28 0.00184 0.499 48 
2.49 0.01797 0.493 61 2.89 0.00613 0.49807 3.29 0.00178 0.49950 


附 k 
附 表 续 
Zz Y P Zz Y P Z ¥ p 

3.30 0.00172 0.49952 3.55 0.00073 0.49981 3. 80 0.00029 0.499 93 
3.31 0.00167 0.49953 3.56 0.00071 0.49981 3.81 0.00028 0.499 93 
3.32 0.00161 0.49955 3.57 0.00068 0.49982 3.82 0.00027 0.499 93 
3. 33 0.00156 0.49957 3.58 0.00066 0.499 83 3. 83 0.00026 0.49994 
3. 34 0.00151 0.49958 3.59 0.00063 0.499 83 .84 0.00025 0.49994 
3.35 0.00146 0.49960 3.60 0.00061 0.499 84 3.85 0.00024 0.49994 
3.36 0.00141 0.49961 3.61 0.00059 0.499 84 3.86 0.00023 0.499 94 
3.37 0.00136 0.49962 3.62 0.00057 0.49985 3.87 0.00022 0.49995 
3.38 0.00132 0.499 64 . 63 0.00055 0.49986 3. 88 0.00021 0.499 95 
3. 39 0.00127 0.49965 3.64 0.00053 0.499 86 3.89 0.00021 0.49995 
3. 40 0.00123 0.499 66 3.65 0.00051 0.49987 3. 90 0.00020 0.49995 
3.41 0.00119 0.499 68 3.66 0.00049 0.49987 3.91 0.00019 0.499 95 
3.42 0.00115 0.49969 3.67 0.00047 0.499 88 3.92 0.00018 0.499 96 
3. 43 0.00111 0.49970 3.68 0.00046 0.499 88 3.93 0.00018 0.499 96 
3. 44 0.00107 0.49971 3.69 0.00044 0.49989 3.94 0.00017 0.499 96 
3.45 0.00104 0.49972 3.70 0.00042 0.49989 3.95 0.00016 0.499 96 
3.46 0.00100 0.49973 3.71 0.00041 0.49990 3.96 0.00016 0.499 96 
3.47 0.00097 0.49974 3.72 0.00039 0.49990 3.97 0.00015 0.499 96 
3.48 0.00094 0.49975 3.73 0.00038 0.49990 3.98 0.00014 0.49997 
3. 49 0.00090 0.49976 3.74 0.00037 0.49991 3.99 0.00014 0.49997 
3. 50 0.00087 0.49977 3.75 0.00035 0.49991 

3.51 0.00084 0.49978 3.76 0.00034 0.49992 

3.52 0.00081 0.49978 3.77 0.00033 0.49992 

3. 53 0.00079 0.49979 3.78 0.00031 0.49992 

3. 54 0.00076 0.499 80 3.79 0.00030 0.49992 
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、 选 择 题 


LE 3D 4D 5. BC 6.C TC 8 ABD 9. ABD 10. ABCD 11, CD 
12, A 13, ABC 14. A 15. A 16. D 17. ABC 18, ABCD 19. ABCD 20, ABD 
21. B 22. D 23. ABC 24. B 25. AB 26. D 27. ABC 28. B 29. D 30, ABC 


、 简 答题 


略 。 


第 二 章 常 R 


、 选 择 题 


1. ACD 2C 3. ABCD 4.B 5 A 6 AC 7. BD 8B 9.A 10C 
11. C 12: Œ 13. CD 14 ABCD 15; D 16, C WD 18D 19. A 20, A 
21. BC 


、 简 答题 


略 。 


、 选 择 题 


LD 2.€ HED 4. ABCD 5. A 6.C€ 7. BD 8 B 9.C 10. A 11. B 
12. B B.G M D 15 B 


、 简 答题 


略 


\ 证 明 题 


1. 利用 经 典 测验 理论 的 三 个 基本 假设 和 三 个 相关 推论 ,证 明 S% 二 St 十 SE。 

解 : (1) 经 典 测验 理论 的 三 个 基本 假设 如 下 : 

假设 一 : 观察 分 数 等 于 真 分 数 与 随机 误差 分 数 之 和 , 即 X=T 十 EE。 

假设 二 : 在 所 讨论 的 问题 范围 内 . 真 分 数 不 变 , 亦 即 个 体 具 有 恒定 的 特质 ,在 短期 内 不 


会 发 生 改变 , 即 工 是 恒定 的 。 


假设 三 : 随机 误差 分 数 是 完全 随机 的 ,并 服从 均值 为 零 的 正 态 分 布 , 且 与 真 分 数 相互 独 


: 即 王 是 完全 随机 的 。 
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(2) 由 三 个 基本 假设 引申 出 的 三 个 相关 推论 如 下 : 

推论 一 : 若 一 个 人 的 某 种 心理 特质 可 以 用 平行 测验 反复 测量 足够 多 次 , 则 其 观察 分 数 
的 平均 值 会 接近 于 真 分 数 , 即 ECX) =T BK ECE) =0, 

推论 二 : 真 分 数 与 随机 误差 分 数 之 间 的 相关 为 零 , 即 rre =0 或 rer = 0, 

推论 三 : 各 平行 测验 上 的 随机 误差 分 数 之 间 的 相关 为 零 , 即 ree’ 二 0。 

(3) SX 二 5 十 SS 证明 如 下 : 

EH: AX: X=T+E,X=T+E; MU, X 一 X=(T 一 T) 十 (E 一 E)。 $: z 一 X 一 Xir 

T 一 T,e 二 EE 一 EE; 那 么 :z+==t 十 e。 根 据 推论 二 ,rrs =0. 
D.C De tete Ne ae, 
n n 


j 
n n n 


Sk 


n n 


>) Œ-E? 
n 


十 2rreSrSe 十 = $ +0 +S = $+ Sh 


Me CTT 
n oo ‘na 
得 证 : S4 二 Sf 十 SE。 
2. TENE SP MASA EE, WE LO= EE LO=E XO. 
解 : (1) 信 度 的 三 个 定义 如 下 : 
EXOD: 信 度 是 一 个 被 测 团体 的 真 分 数 方差 与 观察 分 数 方差 之 比 , 即 ra =P 


ELO: 信和 度 是 一 个 被 测 团体 的 真 分 数 与 观察 分 数 相关 系数 的 平方 , 即 rxx = rier o 

定义 回 : 信 度 是 一 个 测验 XA 卷 ) 与 它 的 任意 一 个 “平行 测验 ”"X'(B 卷 ) 的 相关 系数 ， 
即 rxx =rxx° o 

(2) 运用 经 典 测验 理论 的 三 个 基本 假设 和 三 个 相关 推论 ,可 以 证 明 信 度 三 个 定义 公式 
的 等 价 性 , 共 包 括 以 下 三 步 。 

第 一 步 ,证 明定 义 加 等 于 定义 四 ,如 下 : 

EH: 4.2=X X,c=T-Tye=E 下 .根据 推论 二 ,rer =i, 


al 1 N Ha Die 
; Mx-xXT-D Da Dator = = 
a nSxSr i nSxSr EA 
— T)? 
Dr 8, De Go De Ya-n 
n n n n S$ Sr 
SS Sp SxSr SxSr SxSr Sx 


因为 : rxr = 全, 所 以 :加 = St SE = no ,因此 多 = rae 
Sx Si Sk 
得 证 ,定义 四 一 定义 @。 
第 二 步 , 证 明定 义 @ 等 于 定义 ,如 下 : 
证 明 : 根据 平行 测验 的 性 质 ,可 知 X=X',Sx 二 Sx 。 令 : c= T-—T.2=X—X,2' =X’ 
X .e=E—E,e’ 一 E' 一 E ;那么 : x 二 rt 十 ewx 一 t 十 e' ;根据 推论 二 ,rar =0 或 rr 二 0; 根 据 推 


论 三 ,re 一 0。 


De, de, Der, De’ 
Dar D atot) ao m E = 
me SS nSxSx SxSx 


n 
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B a 


Da Dye de 
Sb reSeSrtrerSeSrtreSSe + +o+0+0 S52 yg 
n n n ed jd 
SxSx Ss SS 
2 
PAu ree =S, 
Sk 


得 证 ,定义 @@ 一 定义 中。 
第 三 步 ,综合 第 一 步 和 第 二 步 ,可 知 : 定义 四 一 定义 回 一 定义 回 。 


第 四 章 效 E 


一 、 选 择 题 

1.B 2.D 3, ABCD 4.D 5.A 6. ABCD 7. ABCD 8.B 9.D 

10. ABCD 11. BD 12. AD 13, BD 14. BD 15. D 
二 、 简 答题 

略 。 
、 分 析 题 

1. 解 : (1) 高 考 的 成 绩 是 否 有 效 ,关键 要 看 它 能 否 很 好 地 预测 考生 将 来 在 大 学 中 的 
表现 ,也 就 是 要 看 考生 在 进入 大 学 后 的 表现 与 高 考 成 绩 之 间 的 相关 一 致 性 如 何 。 如 果 相 
关 一 致 性 高 ,那么 说 明 高 考 的 预测 能 力 好 ; 如果 相关 一 致 性 低 ,那么 说 明 高 考 的 预测 能 
AE, 

(2) 采 用 效 标 效 度 中 的 预测 效 度 来 考察 高 考 的 有 效 性 , 即 计算 该 班 学 生 的 高 考 数学 考试 
成 绩 与 人 学 后 第 一 学 期 期 末 高 等 数学 测验 成 绩 之 间 的 相关 系数 。 将 表 4-4 中 的 有 关 数 据 
代入 皮尔 还 (Pearson) 积 差 相 关系 数 公式 ,其 具体 的 计算 公式 可 参考 公式 (3 - 8b) ,得 

nA WiC DR Dy 
Mn X?— (CX) fn YY? -— Cy” 
15 X 123 205 — 1 651 X 1 094 
15 X 187 791 —1 651" Vi5 X81 404 — 1 094 
= 0. 892 

(3) 通过 计算 得 出 该 班 学 生 的 高 考 数学 考试 成 绩 与 人 学 后 第 一 学 期 期 末 高 等 数学 测验 
成 绩 之 间 的 相关 系数 为 0. 892, 即 高 考 数学 考试 成 绩 与 人 学 后 第 一 学 期 期 末 高 等 数学 测验 成 
绩 之 间 有 较 高 的 正 相关 ,这 表明 高 考 成 绩 对 考生 进入 大 学 后 的 表现 有 正 向 预测 作用 。 


rxy 


第 五 章 ”难度 与 区 分 度 
一 、 选 择 题 


LA 2 ABE 3.6 £6 SB GB RA BA OA WD 1C 
12. CD 13. ABD 14.D 15. A 
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oases EE 
二 、 简 答题 
略 。 
三 、 计 算是 
1. 解 : Pi 二 80/100 二 0. 80. P; =20/100=0. 20, 另 外 一 道 单项 选择 题 更 难 ,因为 难度 的 
本 质 是 “ 易 度 ”。 


2. 解 : Dı =Pu— PL =35/50—10/50=25/50=0. 50,D: 一 Ph 一 已 一 10/50 一 18/50 
一 8/50 一 一 0.16,Di>D:。 因 为 卫 值 越 大 越 好 ,表示 区 分 能 力 越 强 ,所 以 D, 更 好 。 


第 一 题 的 难度 (极端 分 组 法 ) : A、D、I 三 个 被 试 总 分 最 高 ,分 别 是 86、84、84( 前 三 甲 ), 为 
高 分 组 (High) ;F、C、K 三 个 被 试 总 分 最 低 ,分 别 是 43、49、50( 后 三 甲 ), 为 低 分 组 (Low);A、 


DI 三 个 被 坛 在 第 一 题 上 有 两 人 答对 ,Pa 一 入 一 子 ;F.C、K 三 个 被 试 在 第 一 题 上 只 有 一 人 
es 

答对 ,PL Re iP Push A 0.500, 

第 一 题 的 区 分 度 (D 值 ) :D 一 Pa 一 PL 一 也 一 二 一 0. 333 

第 一 题 的 区 分 度 ( 点 二 列 相关 ): 

p=0.636,g=1—p=0. 364;X, 71. 000,X, =H 63. 500, S, =14. 623; 代 入 公 
式 (5-8), 得 

rn Ye pa SS 0, 636 X0, 364 =0. 247, 

(2) 第 三 题 的 难度 (用 被 试 得 分 平均 数 估计 ):P 一 区 -一 人 一 0.745。 


第 三 题 的 难度 (极端 分 组 法 ): Pu 一世 (AD.I 高 分 组 项 目的 平均 分 除 以 满分 值 ),P, 一 站 


CF CK 低 分 组 项 目的 平均 分 除 以 满分 值 ),P 


Pi 1 5 1 .14 
2 Jot 10) 2 To 0. 700, 


第 三 题 的 区 分 度 (D 值 ):D 一 Pa 一 PL 一 名 一 言 一 0. 400. 
第 三 题 的 区 分 度 (皮尔 逊 积 差 相 关 ) : 
(% —yey;-Y) 
bes 3 257. 636 6.718, 
JEA- >), —Y)? 54. 727 X 2 352. 182 
(3) 整个 测验 测量 的 信和 度 (a 系数 ) 
K = 6;S? = 213. 835;St = 2. 083.S? = 6. 198,S} = 4. 975,S} = 4. 050,S} = 8. 182, 


K Ss 6 95. 009 
Ka pF? = a ag, gage OO 


Si = 69. 521;a 
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SKB ”测验 标准 化 


、 选 择 题 
1, ABD 2. ABCD 3.C 4.D 5 ACD 6.D 7.B 8 ABC 9.D 10. BCD 
11. ABCD 12. ABCD 13. ABCD 14. ABD 15. AC 

、 简 答题 
略 。 


第 七 章 智力 测验 


、 选 择 题 

BT GB WC llB WD 
13. D 14. D 15. B 16, ABD 17. BD 18, ABCD 19. ABD 20. AB 21. ABCD 
、 简 答题 

略 。 


第 八 章 人 格 测 验 


、 选 择 题 
1A 2 ABC 3.B 4. A 5ABC 6.D 7.B 8 C 9. ABC 10B 11.D 
12. C 13. ABCD 14. ABC 15, C 
、 案 例题 
1 QB (2)B GNA 
2 GQ) A WC (3)C WD 


、 简 答题 
略 。 
SAB ”心理 评定 量 表 
、 选 择 题 


LB ABC EC 7.B 8B 9, ACD 10. C 11. BC 

12.D 13.B M. B 15.B 16. C WB 18 D 19. B 20. E 21. AB 

22. B 23. A 2A 25.D 26.C 27.C 28.B 29.D 30. A 31. A 32, C 
、 案 例题 

1. (DEC (2) ABCD 

=DD MA DE twa 
、 简 答题 

略 。 
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第 十 章 项目 反应 理论 


一 、 选 择 题 
LD 26 DP 46D 5 A & AB TD & A 9, ABED 10. A 11, B 
二 、 简 答题 
略 。 
三 、 分 析 题 
1. 解 :(1) 第 4 题 。 
(2) 第 6 题 。 
(3) Pi(0,) 如 下 表 所 示 
3 4 一 3 一 2 一 1 0 1 2 3 
item 
$ 0. 000 0. 000 0. 002 0. 045 0. 500 0. 955 0. 998 
2 0. 008 0. 027 0.085 0. 233 0. 500 0.767 0.915 
3 0. 250 0. 250 0.252 0. 284 0.625 0. 966 0. 998 
4 0. 205 0. 236 0.412 0. 788 0. 964 0. 995 0. 999 
5 0. 000 0. 006 0.045 0. 265 0.735 0. 955 0. 994 
6 0. 165 0. 239 0. 369 0. 550 0.731 0. 861 0. 935 


(4) 第 4 题 ,Qi(b) 王 1 一 Pi(b) 一 1 一 0.788 一 0. 212 


第 十 一 章 概 化 理论 


一 、 选 择 题 
iC 2B 3.D 4, AB 5 BD 6 A 7C 8 B 9. AB 10. ABC 11. B 
二 、 简 答题 


1. 解 : (1) 教师 (测量 目标 ) ;评价 者 (测量 侧面 ); 技 能 (测量 侧面 ) 。 

(2) 教师 (0 .评价 者 (r) 和 技能 (s) 都 是 交叉 的 ,可 用 tXrXs 表 示 , 属 于 交叉 设计 。 

《37 

2. 解 : (1) pX(r: 0), 即 步兵 与 评价 者 及 场合 相交 又 ,但 评价 者 榜 套 在 场合 中 ,属于 混 
合 设 计 。 

(2) EMS(p)=02,p0.e H202 +60 

EMS(0) =6%,,prove + 20% +4307, 19 +8602 

EMS(1, ro) =6%,, prose + 4302,0 

EMS( po) =0},,pro,e + 2050 

EMS( pr. pro, e) =0}r.prore 

(3) 根据 表 11-13 的 G 研究 部 分 结果 ,估计 的 方差 分 量 及 百分比 如 下 表 所 示 。 


T 
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变异 来 源 方差 分 量 估计 的 方差 分 量 百分比 
步兵 (p) a 0.0125 31.5% 
场合 (0) a 0. 007 0 17.6% 
评价 者 :场合 (r : 0) lin 0. 001 3 3.3% 
po dho 0.0035 8.8% 

pr» prose 和 0.0154 38.8% 


结果 解释 : 从 上 表 可 以 看 出 ,步兵 成 绩 (测量 目标 ) 表 现 出 较 大 的 差异 性 (大 的 p 效应 ， 
31.5%); 在 场合 之 间 步 兵 表现 出 较 大 的 差异 性 (大 的 o 效 应 ,17. 6%) ;评价 者 评定 较为 一 
致 ,在 不 同 场合 几乎 使 用 相同 的 评分 标准 (小 的 r,ro 效应 ,3. 3%) ;步兵 在 不 同 场合 的 成 绩 
表现 出 一 定 的 差异 性 (相对 不 小 的 po 效应 ,8. 8%); 最 后 剩余 的 效应 是 大 的 (38. 8% ) ,这 表 
明 步 兵 成 绩 在 不 同 评价 者 上 可 能 有 较 大 的 差异 (pr) ,或 者 评价 者 在 不 同 场合 评价 的 成 绩 可 
能 有 较 大 的 差异 (pro) ,或 者 还 包含 了 一 些 随机 的 或 系统 的 但 未 被 识别 的 变异 (e) 。 
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